Фейковые новости о COVID-19, теории заговора, вредные медицинские советы и страшилки о вакцинации заполонили соцсети с начала пандемии. Как отличить ложную информацию от достоверной? Учёные из Америки и Канады предложили новый подход к автоматизированной обработке публикаций.
Многие соцсети вводят алгоритмы на основе методов глубокого обучения – они должны распознавать посты с ложной информацией. Но это не всегда работает идеально, и система может ошибочно удалять совершенно нормальные публикации. При этом выяснить, почему они были заблокированы, почти нереально: искусственные нейросети после обучения становятся «чёрными ящиками», из которых невозможно вывести логику принятия решений. Получается, что мы доверяем управление потоками важной информации системам, работу которых не можем в полной мере объяснить и предсказать.
Коллектив учёных из американских и канадских университетов предложил новый подход к автоматизированной обработке публикаций. Он основан на методе анализа независимых компонент – Independent Component Analysis, ICA. Разработчики утверждают, что их модель отталкивается от тех же социолингвистических критериев, которые используются людьми, а потому её выводы всегда остаются доступными для истолкования.
Учёные составили сбалансированную выборку из 1600 твитов, содержащих утверждения о коронавирусе. Твит признавался фейковым, только если двое независимых экспертов помечали его таковым. После отсеивания спорных случаев получился набор из 280 достоверных и 280 ложных твитов.
Эксперты использовали набор из 17 лингвистических признаков, которые в научных публикациях считаются связанными с дезинформацией, предвзятостью или ненадежностью источника. В их числе:
- повышенная эмоциональность,
- избыточное использование знаков препинания,
- обвинения во лжи и заговоре,
- частое употребление слов, связанных с войной, смертью, политикой и религией, обилие имён собственных
Учёные показали, что из каждого твита, проанализированного ICA, можно извлечь наиболее важные слова и информацию о контексте, а значит — понять, на основании чего алгоритм пометил твит как дезинформацию.
Например, два твита из выборки содержали одновременно слова «ковид» и «суп из летучей мыши» — сами по себе безобидные, но подозрительные в сочетании друг с другом. И эксперты, и ICA идентифицировали эти твиты как ложные.
Исследователи сравнили ICA и популярную модель BERT:
Возможно, Олимпийские игры в Токио будут перенесены для предотвращения распространения COVID-19 – обе системы пометили твит как достоверный
От человека к его семье. Потом к соседу. Потом к друзьям. Как коронавирус распространился в Нью-Йорке за 48 часов – ICA пометила как достоверный, BERT ошибочно посчитала дезинформацией
Китайцы едят суп из летучих мышей, связанный с коронавирусом – ICA верно пометила как дезинформацию, BERT ошибочно посчитала достоверным
Хотя для обработки естественного языка, в том числе и для обнаружения дезинформации в соцсетях, чаще применяют методы глубокого обучения, авторы статьи показали, что анализ независимых компонент работает как минимум не хуже. При этом он проще и экономичнее, а главное — позволяет вывести обоснование того или иного решения.
#наука #fake news #алгоритмы