Найти тему
Data Science в переводе

Обнаружение фейковых новостей с помощью ансамблевых методов машинного обучения: Вступление

Оглавление

Перевод статьи Fake News Detection Using Machine Learning Ensemble Methods, опубликована 17 октября 2020

Авторы Iftikhar Ahmad, Muhammad Yousaf, Suhail Yousaf, Muhammad Ovais Ahmad

Статья распространяется по лицензии Creative Commons Attribution License

Автоматическое определение текстовой статьи как дезинформации является сложной задачей. Изображение Wokandapix с сайта Pixabay.
Автоматическое определение текстовой статьи как дезинформации является сложной задачей. Изображение Wokandapix с сайта Pixabay.

Аннотация

Появление всемирной паутины и быстрое внедрение социальных сетей (таких как Facebook и Twitter) проложили путь для распространения информации, которого история человечества прежде не знала. Сегодня пользователи соцсетей создают и делятся количеством информации большим, чем когда-либо, и порой эта информация не имеет никакого отношения к реальности. Автоматическое определение текстового материала как дезинформации - довольно сложная задача. Даже эксперт в определенной области знаний должен изучить несколько разных аспектов, прежде чем вынести вердикт в правдивости статьи. В этой работе мы предлагаем использовать ансамблевый метод глубокого обучения для автоматической классификации новостных статей. Наше исследование изучает различные текстовые свойства, позволяющие отличить фейковый контент от реального. Используя эти свойства, мы обучаем комбинацию различных алгоритмов машинного обучения с разными ансамблевыми методами и оцениваем их качество на 4 реальных наборах данных. Экспериментальная оценка подтверждает более высокую эффективность предложенного нами ансамблевого подхода к обучению по сравнению с отдельными обучениями.

1. Вступление

Появление всемирной паутины и быстрое внедрение социальных сетей (таких как Facebook и Twitter) проложили путь для распространения информации, которого история человечества прежде не знала. Благодаря соцсетям новостные агентства могут предоставлять своим подписчикам новости, обновляемые практически в режиме реального времени.

Средства массовой информации перешли от газет, таблоидов и журналов к цифровым форматам: новостным ресурсам, блогам, каналам в социальных сетях и пр. [1]. Потребителям стало проще получать новости. 70% ссылок в Facebook введут на новостные сайты. [2]. Социальные медиа-платформы сегодня чрезвычайно мощны и полезны - они позволяют людям обмениваться идеями и обсуждать вопросы демократии, образования и здравоохранения. Однако такие платформы порой используются и в негативном плане - обычно для получения денежной выгоды [3, 4], но также и для создания предвзятого мнения, манипулирования сознанием и распространения нелепостей или глупостей. Это явление широко известно как фейковые новости.

В последнее десятилетие наблюдается стремительный рост распространения фейковых новостей, наиболее ярко это проявилось на выборах в США в 2016 году [5]. Распространение в интернете статей, не соответствующих фактам, привело ко многим проблемам не только в политике, но и в других областях: спорте, здравоохранении, науке [3]. Одной из областей, подверженных влиянию фейковых новостей, являются финансовые рынки [6], где слух может иметь катастрофические последствия и даже может привести к остановке рынка.

Принятие нами тех или иных решений зависит в основном от типа потребляемой нами информации - наше мировоззрение формируется на основе усвоенной нами информации. Растет количество свидетельств нелепой реакции пользователей на новости, позднее оказывавшимися фальшивыми [7, 8]. Один из недавних случаев это распространение коронавируса, когда по интернету распространялись лживые сообщения о происхождении, природе и поведении вируса [9]. Ситуация ухудшалась по мере того, как все больше людей читали в интернете эти фальшивки. Идентификация таких новостей является сложной задачей.

К счастью, существует ряд вычислительных методов, которые могут быть использованы для маркировки определенных статей как поддельных на основе их содержания [10]. Большинство из этих методов используют сайты проверки фактов, такие как PolitiFact и Snopes. Существует ряд репозиториев, поддерживаемых исследователями, которые содержат списки сайтов, идентифицированных как сомнительные и поддельные [11]. Однако, проблема с этими ресурсами в том, что для идентификации статей или веб-сайтов требуется человеческая экспертиза. К тому же сайты проверки фактов содержат статьи лишь из определенных областей, таких как политика, и упускают фейковые новости из мира развлечений, спорта, технологий и др.

Данные в интернете представлены в различных форматах, таких как документы, видео и аудио. Новости, опубликованные в неструктурированном формате (в виде статьи, видео или аудио), относительно трудно обнаружить и классифицировать без участия человека. Однако вычислительные методы, такие как NLP (Natural Language Processing), могут быть использованы для обнаружения аномалий, отделяющих текстовую статью, которая является лживой по своей природе, от статей, основанных на фактах [12]. Другие методы анализируют то, как фальшивая новость распространяется в сети в отличии от правдивой [13]. Ответная реакция на статью может использоваться для ее классификации как реальной или поддельной. При гибридном подходе используют анализ социальной реакции на статью вместе с изучением текстовых признаков, чтобы выяснить, является ли статья лживой или нет.

Ряд исследований был в основном сосредоточен на обнаружении и классификации фейковых новостей в таких социальных сетях как Facebook и Twitter [13, 14]. Поддельные новости классифицировали на различные типы, а затем использовали размеченные данные для обучения моделей машинного обучения (ML) [10, 15, 16].

Исследование Ahmed и др. [17] включало извлечение лингвистических признаков, таких как N-граммы, из текстовых статей, и обучение нескольких ML-моделей, включая K-ближайших соседей (KNN), машину опорных векторов (SVM), логистическую регрессию (LR), линейную машину опорных векторов (LSVM), дерево решений (DT) и стохастический градиентный спуск (SGD). Самая высокая точность (92%) была достигнута с помощью SVM и логистической регрессии. Согласно исследованиям, при обучении классификационных моделей наблюдался феномен уменьшения общей точности по мере увеличения количества N-грамм, рассчитанных для конкретной статьи.

Shu и др. [12] достигли большей точности с различными моделями, комбинируя текстовые признаки со вспомогательной информацией, такой как социальные взаимодействия пользователей в социальных сетях. Авторы также рассмотрели социальные и психологические теории и то, как их можно использовать для обнаружения ложной информации в интернете. Далее авторы использовали различные алгоритмы анализа данных для построения моделей и общие методы извлечения признаков. Эти модели основаны на таких сведениях, как стиль письма, и таком социальном контексте, как точка зрения и распространение.

Другой подход использовал Wang [18]. Автор использовал текстовые признаки и метаданные для обучения различных ML-моделей. Автор сосредоточился в основном на использовании сверточной нейронной сети (CNN). Сверточный слой использовался для обнаружения зависимости между векторами метаданных, а за ним следовал двунаправленный слой LSTM. После операции MaxPooling-а текстовые представления подвыборки объединялись с представлениями метаданных из двунаправленного LSTM и подавались на полностью связанный слой с функцией активации softmax для генерации финального предсказания. Исследование проводилось на основе набора данных, содержащего заявления двух разных политических партий. Также в набор признаков были включены некоторые метаданные, такие как тема, спикер, работа, штат, партия, контекст и история. Точность 27,7% была достигнута при сочетании таких признаков, как текст и спикер, в то время как точность 27,4% была достигнута при объединении с текстом всех метаданных.

Конкурентное решение, которое было представлено Riedel и др. [19], представляет собой систему определения позиции, присваивающую статье один из четырех ярлыков: “согласен”, “не согласен”, “обсудить” или “не связано”, в зависимости от соответствия заголовка статьи тексту статьи. В качестве набора признаков авторы использовали лингвистические свойства текста, такие как "частота слова" (TF, term frequency) и "частота слова-обратная частота документа" (TF-IDF, term frequency-inverse document frequency), а также многослойный персептронный классификатор (MLP) с одним скрытым слоем и функцией softmax на выходе конечного слоя. Набор данных содержал статьи с заголовком, текстом, и меткой. Точность системы по метке "не согласен" на тестовых примерах была низкой, хотя по метке "согласен" результат был лучше. Авторы использовали простой MLP с некоторыми тонко настроенными гиперпараметрами для достижения общей точности 88,46%.

Shu и др. [12] также рассматривали несколько разновидностей методов оценки достоверности для обнаружения фальшивых новостей в интернете. Исследовались два вида основных оценочных методов: лингвистический анализ и сетевой анализ. Сочетание того и другого создало более надежный гибридный подход к обнаружению фальшивых новостей в интернете. Методы лингвистического анализа включали глубокий синтаксис, риторическую структуру и анализ дискурса. Этот метод использовали для обучения классификаторов, таких как SVM или наивные байесовские модели. Методы сетевого анализа включали анализ и обработку - как поведения в социальных сетях, так и связанных данных.

Уникальный подход использовал Vosoughi и др. [13] для изучения свойств распространения новостей в социальных сетях; авторы рассматривали распространение новостей (слухов) в Twitter и анализировали, как поддельные новости отличаются от реальных с точки зрения их распространения. В статье обсуждаются различные методы анализа распространения фальшивых новостей в интернете, такие как глубина, размер, максимальная ширина, структурная виральность, средняя ширина каскадов истинных и ложных слухов на различных глубинах, количество уникальных пользователей Twitter, достигших любой глубины, и количество минут, необходимых для того, чтобы каскады истинных и ложных слухов достигли глубины, а также количество пользователей Twitter.

1.1. Наш вклад

В нынешнем корпусе фальшивых новостей было несколько случаев, когда для классификации текста использовались как контролируемые, так и неконтролируемые алгоритмы обучения [20, 21]. Однако большая часть текстов представлена наборами данных из конкретных областей, в частности, из области политики. Поэтому обученный алгоритм лучше всего работает со статьями из конкретных предметных областей и не достигает оптимальных результатов при работе со статьями другой тематики. Поскольку статьи из разных областей имеют уникальную текстовую структуру, трудно обучить общий алгоритм, который будет хорошо работать для всех новостей.

В этой статье мы предлагаем решить проблему обнаружения фальшивых новостей, используя ансамблевый подход к машинному обучению. Наше исследование изучает различные свойства текста, которые могут быть использованы для отличия поддельного контента от настоящего. Используя эти свойства, мы обучаем комбинацию различных алгоритмов ML, используя несколько ансамблевых методов, которые пока недостаточно хорошо описаны в современной литературе. Ансамблевое обучение доказало свою полезность в самых разнообразных приложениях, поскольку обученные модели имеют тенденцию снижать частоту ошибок с помощью таких методов, как бэггинг и бустинг [22]. Эти методы облегчают обучение различных ML-алгоритмов эффективным и действенным способом.

Мы также провели обширные эксперименты с четырьмя реальными общедоступными наборами данных. Полученные результаты подтвердили улучшенное качество предложенной нами методики. Для оценки использовалось четыре метрики: accuracy, precision, recall и F-1.

Продолжение следует. Далее:

  • Часть 2: Материалы и методы
  • Часть 3: Результаты и обсуждение