Найти тему
Политехнический музей

Появился новый алгоритм для выявления фейков в соцсетях

Фейковые новости о COVID-19, теории заговора, вредные медицинские советы и страшилки о вакцинации заполонили соцсети с начала пандемии. Как отличить ложную информацию от достоверной? Учёные из Америки и Канады предложили новый подход к автоматизированной обработке публикаций.

Многие соцсети вводят алгоритмы на основе методов глубокого обучения – они должны распознавать посты с ложной информацией. Но это не всегда работает идеально, и система может ошибочно удалять совершенно нормальные публикации. При этом выяснить, почему они были заблокированы, почти нереально: искусственные нейросети после обучения становятся «чёрными ящиками», из которых невозможно вывести логику принятия решений. Получается, что мы доверяем управление потоками важной информации системам, работу которых не можем в полной мере объяснить и предсказать.

Коллектив учёных из американских и канадских университетов предложил новый подход к автоматизированной обработке публикаций. Он основан на методе анализа независимых компонент – Independent Component Analysis, ICA. Разработчики утверждают, что их модель отталкивается от тех же социолингвистических критериев, которые используются людьми, а потому её выводы всегда остаются доступными для истолкования.

Учёные составили сбалансированную выборку из 1600 твитов, содержащих утверждения о коронавирусе. Твит признавался фейковым, только если двое независимых экспертов помечали его таковым. После отсеивания спорных случаев получился набор из 280 достоверных и 280 ложных твитов.

-2

Эксперты использовали набор из 17 лингвистических признаков, которые в научных публикациях считаются связанными с дезинформацией, предвзятостью или ненадежностью источника. В их числе:

  • повышенная эмоциональность,
  • избыточное использование знаков препинания,
  • обвинения во лжи и заговоре,
  • частое употребление слов, связанных с войной, смертью, политикой и религией, обилие имён собственных

Учёные показали, что из каждого твита, проанализированного ICA, можно извлечь наиболее важные слова и информацию о контексте, а значит — понять, на основании чего алгоритм пометил твит как дезинформацию.

Например, два твита из выборки содержали одновременно слова «ковид» и «суп из летучей мыши» — сами по себе безобидные, но подозрительные в сочетании друг с другом. И эксперты, и ICA идентифицировали эти твиты как ложные.

Исследователи сравнили ICA и популярную модель BERT:

Возможно, Олимпийские игры в Токио будут перенесены для предотвращения распространения COVID-19 – обе системы пометили твит как достоверный

От человека к его семье. Потом к соседу. Потом к друзьям. Как коронавирус распространился в Нью-Йорке за 48 часов – ICA пометила как достоверный, BERT ошибочно посчитала дезинформацией

Китайцы едят суп из летучих мышей, связанный с коронавирусом – ICA верно пометила как дезинформацию, BERT ошибочно посчитала достоверным

Хотя для обработки естественного языка, в том числе и для обнаружения дезинформации в соцсетях, чаще применяют методы глубокого обучения, авторы статьи показали, что анализ независимых компонент работает как минимум не хуже. При этом он проще и экономичнее, а главное — позволяет вывести обоснование того или иного решения.

#наука #fake news #алгоритмы