Кошка Ночной Луны. Morgenmuffel
06.04.2016 в 03:04
Пишет Всё плохо:Более года назад анонимный источник связался с Süddeutsche Zeitung (SZ) и представил шифрованные внутренние документы о Mossack Fonseca, панамской юридической фирме, которая продает анонимные оффшорные компании по всему миру. В последующие месяцы, количество документов продолжало расти. В конечном счете, SZ получила около 2,6 терабайт данных.

Данные структурированы следующим образом: Mossack Fonseca создали папку для каждой фирмы. Каждая папка содержит электронные письма, контракты, стенограммы и отсканированные документы. В отдельных случаях в папке находится несколько тысяч страниц из разных документов.
Во-первых, данные необходимо было проиндексировать, чтобы сделать возможным поиск в этом море информации. С этой целью Süddeutsche Zeitung использовали Nuix www.nuix.com – ту же программу, с которой работают международные расследователи. Süddeutsche Zeitung и ICIJ загрузили миллионы документов в высокопроизводительные компьютеры. К документам было применено распознавание символов (OCR) для преобразования данных в машиночитаемые файлы. Это позволило превратить изображения - например, отсканированные документы с подписанными контрактами - в доступный для поиска текст. Это был важный шаг: он позволил журналистам прочесать большую часть утечки с помощью простого алгоритма поиска, аналогичного Google.
Журналисты составили списки важных политических деятелей, международных преступников, хорошо известных профессиональных спортсменов и других лиц. Цифровая обработка позволила искать среди всех данных их имена. В течение всего нескольких минут мощный алгоритм поиска сравнил списки людей с 11,5 миллионами документов.

(Дальше про журналистов и политику, это неинтересно - ВП)
panamapapers.sueddeutsche.de/articles/56febff0a... (en)
URL записи
Данные структурированы следующим образом: Mossack Fonseca создали папку для каждой фирмы. Каждая папка содержит электронные письма, контракты, стенограммы и отсканированные документы. В отдельных случаях в папке находится несколько тысяч страниц из разных документов.
Во-первых, данные необходимо было проиндексировать, чтобы сделать возможным поиск в этом море информации. С этой целью Süddeutsche Zeitung использовали Nuix www.nuix.com – ту же программу, с которой работают международные расследователи. Süddeutsche Zeitung и ICIJ загрузили миллионы документов в высокопроизводительные компьютеры. К документам было применено распознавание символов (OCR) для преобразования данных в машиночитаемые файлы. Это позволило превратить изображения - например, отсканированные документы с подписанными контрактами - в доступный для поиска текст. Это был важный шаг: он позволил журналистам прочесать большую часть утечки с помощью простого алгоритма поиска, аналогичного Google.
Журналисты составили списки важных политических деятелей, международных преступников, хорошо известных профессиональных спортсменов и других лиц. Цифровая обработка позволила искать среди всех данных их имена. В течение всего нескольких минут мощный алгоритм поиска сравнил списки людей с 11,5 миллионами документов.

(Дальше про журналистов и политику, это неинтересно - ВП)
panamapapers.sueddeutsche.de/articles/56febff0a... (en)