Найти тему
IQ.HSE

Искусственный интеллект помогает бороться с работорговлей

iStock
iStock

На Западе этот вид преступлений называют human trafficking или просто «трафикинг» — то есть незаконное перемещение людей с целью их последующей эксплуатации. В России чаще используют словосочетание «торговля людьми». На сегодняшний день это самая быстрорастущая криминальная индустрия в мире. Так, по данным ООН, в 2004 году ее прирост достигал 9 млрд долларов. В Европе жертвами «трафикинга» чаще всего становятся женщины и девушки из Украины, Молдовы, Болгарии, Румынии, Венгрии, которых вывозят в другие страны для принудительного занятия проституцией. Ежегодно с этой целью перемещается до двух миллионов женщин.

Полицейские и математики

Полиция Амстердама (в Голландии проблема «трафикинга» стоит весьма остро) поставила задачу разработать программный продукт, который мог бы автоматически систематизировать тысячи полицейских отчетов, отбирая те, что имеют отношение к торговле людьми. Система должна была не просто отбирать подозрительные случаи, а находить закономерности, устанавливать круг людей, возможно причастных к преступному бизнесу, то есть обнаруживать и идентифицировать потенциальных подозреваемых.

Ведущими разработчиками продукта являются сотрудник полиции Паул Эльцинга (его должность не раскрывается) и, на тот момент, исследователь католического университета Лёвена Йонас Пульманс, а также научный соруководитель проекта профессор Гидо Дедене. По приглашению Гидо и Йонаса, в 2011 года к работе подключились российские математики из департамента анализа данных и искусственного интеллекта НИУ ВШЭ, в частности, профессор Сергей Кузнецов и его коллеги — доценты Дмитрий Игнатов и Алексей Незнанов.

«Главной идеей было создание хорошей системы анализа и визуализации данных полицейских отчетов, — рассказал Дмитрий Игнатов. — В качестве такого средства как нельзя лучше подходит анализ формальных понятий». Этот метод был предложен в 80-х годах прошлого века немецким математиком и философом Рудольфом Вилле. Анализ формальных понятий позволяет визуализировать объектно-признаковые зависимости путем построения так называемых решеток формальных понятий или решеток Галуа. Основная математическая идея заключается в возможности построения полной решётки по любому бинарному отношению и математическому описанию понятия в виде пары объекты-признаки. В данном случае объекты — это отчеты, а признаки — информация, содержащаяся в них, например ключевые слова, даты, упоминаемые люди.

«До этого мы никогда с полицейскими не сотрудничали и никого не ловили, но зато анализировали данные, например, текстовые, — рассказал Дмитрий Игнатов. — С помощью анализа формальных понятий мы искали документы-дубликаты в рамках гранта конкурса «Интернет-математика» компании «Яндекс». Мои коллеги ранее использовали его для предсказания токсических свойств химических соединений. Если данные переведены в объектно-признаковую форму (документы и их признаки, преступники и их признаки), мы все равно имеем дело с объектно-признаковой таблицей данных».

Амстердамские каникулы

В ходе работы специалисты проанализировали порядка семидесяти тысяч полицейских отчетов, составленных с 2008 года. В основном это были отчеты патрульных полицейских, проводивших осмотр автотранспорта или патрулировавших улицы Амстердама. Лишь примерно в тысяче случаев полицейским было известно, что речь действительно идет о лицах, имеющих отношение к торговле людьми. Например, обычная запись в полицейском отчете выглядела так: «Ночь, 23 марта 2008 года, в районе Wallen (территория, где проститутки оказывают услуги) остановлен автомобиль «Мерседес». На заднем сидении замечены две хорошо одетые молодые девушки. Обе не говорили ни по-английски, ни по-голландски. Документы девушек находились у водителя, который объяснял, что в Нидерланды они приехали на каникулы».

Очень сложно установить причастность к торговле людьми путем разрозненных наблюдений на улице и осмотра автомобилей, отмечали полицейские. Но с их помощью ученые определили несколько индикаторов — признаков, позволяющих судить о причастности фигурантов отчета к human trafficking.

Все индикаторы (их можно выявить в тексте автоматически) разделили на группы:

  • статические признаки (национальность, проблемы с документами, крупная сумма наличных, женщины не разговаривают, документы женщин находятся у водителя, проститутки, насилие, следы насилия);
  • изменяющиеся признаки (район «красных фонарей», дорогая машина, женщины в машине, торговля в машине, каникулы, регулярное посещение сомнительных клубов, регулярная доставка девушек в клуб);
  • признаки социального окружения (человек был замечен с подозреваемым или известным преступником, сам был под подозрением).

Также индикаторы подразделялись на ранние и поздние, то есть возможные и явные, сильные признаки соответственно.

Выделенные признаки заносились в таблицу. Глядя на нее, можно было определить, сколько подозрительных признаков есть в том или ином отчете. Например, в отчете №1 упоминались болгары (по данным полиции, выходцы из этой страны часто оказываются причастны к «трафикингу»). Также полицейские при составлении отчета перечислили такие индикаторы как «дорогая машина», «проблемы с документами», район, где работают проститутки.

Сила анализа

Отчет, содержащий слова-«индикаторы», требовал более пристального внимания правоохранительных органов. Чтобы обнаружить и идентифицировать лиц, причастных к торговле людьми, полицейские анализировали формальные понятия.

Эта работа проходит в три этапа:

  • из большого множества отчетов выделяются персоны, которые могли быть потенциально вовлечены в «трафикинг»;
  • строится детальный профиль этих лиц, в котором отражены индикаторы и их изменение во времени;
  • анализируется социальное окружение (социальная сеть) подозреваемых и эволюция этого окружения с течением времени.

Разработанный инструмент позволил полицейским в интерактивном режиме с помощью таблиц формальных понятий выделить ряд признаков и выявить потенциальных подозреваемых. Например, в число подозреваемых попал гражданин Болгарии, который имел проблемы с документами и крупную сумму наличных денег, а в другой момент времени был замечен в районе «красных фонарей». Таким образом, автоматический анализ отчетов показал где, когда и при каких обстоятельствах были зафиксированы те или иные подозрительные индикаторы.

Далее с помощью разработанной системы были проанализированы и визуализированы в виде диаграммы социальное окружение человека. Программа показала, с какими людьми и при каких обстоятельствах имел дело подозреваемый. То есть, по сути, был очерчен круг лиц возможно причастных к преступной группировке.

Результаты сотрудничества ученых и полицейских были представлены в серии научных статей на ведущих тематических конференциях по майнингу данных и анализу формальных понятий, а также научных журналах. Так в статье «Полуавтоматическое обнаружение знаний: идентификация и профилирование незаконной торговли людьми» (Semi-automated knowledge discovery: identifying and profiling human trafficking), опубликованной в журнале General Systems, подробно рассказывалось про методологию анализа и разбирается шесть случаев, в которых анализ формальных понятий помог обнаружить случаи «трафикинга», установить подозреваемых и целые преступные сети. В результате инициированного расследования преступники попали под стражу, а притоны были закрыты муниципальными властями.

Сейчас в лаборатории Интеллектуальных систем и структурного анализа под руководством профессора Сергея Кузнецова разрабатывается программный продукт FCART, который позволит анализировать массивы текстовой информации средствами анализа формальных понятий. Демо-версия продукта доступна по ссылке.
IQ

Автор текста: Владислав Гринкевич

С подпиской рекламы не будет

Подключите Дзен Про за 159 ₽ в месяц