Найти в Дзене
Дмитрий Громов

Как робот-следователь искал 60 миллионов файлов

Представьте себе, что вам приходится просматривать все документы, электронные письма и сообщения огромной многонациональной компании.

Вам, Халилу, не надо ничего воображать. Судебный бухгалтер был частью команды, которая должна была выискивать доказательства нарушений в аэрокосмическом гиганте Airbus после того, как он признал, что давал взятки через посредников.

"Аэробус был похож на высотный дом с 900 квартирами в нем. Мы должны были решить, какие из них мы собираемся исследовать", - говорит она. Г-жа Халил работает в FRA, судебно-следственном бизнесе, который поддерживает судебные дела по всему миру. Но это было отдельное дело и самая большая работа Фра.

Чтобы претендовать на соглашение об отсрочке судебного преследования (DPA), Airbus открыла свою деятельность для интенсивного контроля в 2016 году.

Четырехлетний проект по искоренению коррупции помог Airbus достичь соглашения с регулирующими органами Великобритании, США и Франции, в соответствии с которым она выплатила 3,6 млрд евро (3 млрд фунтов стерлингов) штрафов в знак признания актов мошенничества и взяточничества.

Г-жа Халил и 70-сильная команда столкнулись с океаном файлов, транзакционных данных и электронных писем, охватывающих деятельность по всему миру, большинство из которых были совершенно безобидными.

Так как же они проложили курс?

Искусственный интеллект (ИИ) и компьютер на заказ, не похожий ни на один компьютер, с которым вы когда-либо работали, сыграли большую роль в этом эпическом трале данных.

Огромную коллекцию из 500 миллионов документов и сделок пришлось сократить.

Поскольку объемы данных растут экспоненциально, ИИ все чаще используется в таких исследованиях.

После того как дубликаты и другие не относящиеся к делу материалы были устранены, следователям оставалось просмотреть 60 миллионов документов. ИИ искал в них паттерны и находил фрагменты, которые были неуместны, например, спортивную спонсорскую сделку на 100 миллионов долларов.

Технологии бизнеса

  • Защита хрупких экосистем от добычи лития;
  • Умные замки: удобство приходит с сомнениями в безопасности;
  • Более зеленые самолеты будущего... или просто красивые планы?;
  • Amazon прокладывает курс в сферу здравоохранения;
  • Технологические тренды 2021 года: быстрые самолеты и домашняя работа.

Было создано семь охраняемых следственных участков. Это позволило изучить документы в полной безопасности, что было крайне важно для Airbus. Это огромный бизнес, связанный с крупными европейскими военными самолетостроительными проектами. Так что следствию пришлось придумать способ, как не допустить к делу материалы, имеющие национальное значение.

Специализированное программное обеспечение позволяло собирать информацию, не видя всего документа, из которого она исходила, таким образом сохраняя секретную информацию обороны от посторонних глаз.

Кроме того, использовались заказные компьютеры стоимостью 100 000 долларов, работающие на нескольких дисках и не имеющие подключения к интернету.

Это называется воздушным разрывом, обеспечивающим определенный разрыв между конфиденциальными данными и внешним миром интернета.

Обработка горы данных становится проще и быстрее, если к ним относиться именно как к данным. FRA извлекла метаданные, информацию, лежащую в основе каждого электронного документа, который определяет, что это такое, и использовала ее для индексации материала, чтобы можно было удалить ненужные файлы. ИИ лег в основу этой технологии Assisted Review (TAR).

ИИ был обучен искать неструктурированные данные, такие как электронные письма. Их трудно сканировать, в отличие от структурированных данных, содержащихся в формах и столбцах.

Используя принцип машинного обучения, при котором программное обеспечение ИИ видит множество примеров определенного типа сообщений и начинает определять, к какой категории они относятся, FRA смог извлечь соответствующие документы в темпе. "Программа ИИ искала контекст сообщений, контекст-это все", - замечает Мистер Мейсон.

Программное обеспечение охотилось за взятками, которые были организованы с помощью кодов, таких как врач, выписывающий лекарство. Запустив примеры такого рода скрытых сообщений, программа приобрела концепцию медицины, а затем концепцию рецепта. Это означало, что он мог пробираться через неструктурированные данные и выявлять коррупционные практики.

По мере того как вы выявляете все больше и больше примеров скрытой оплаты, ИИ учится на лету. В этом красота и магия ИИ", - говорит Мистер Мейсон. Была создана система подсчета очков, с добавлением очков за определенные атрибуты. Любая оценка выше определенного числа считалась достойной дальнейшего исследования. Технология машинного обучения становилась все лучше и лучше.