Найти в Дзене

Гибридные модели глубокого обучения для выявления фейковых новостей: случай арабского языка

Широкое распространение Интернета привело к появлению множества вводящей в заблуждение информации, размещаемой на новостных сайтах и в социальных сетях. Многие авторы новостей и организации манипулируют данными, чтобы распространить ложную информацию на различных языках и в разных сообществах. Точная и своевременная идентификация фейковых новостей во многом осуществляется благодаря технологиям на основе машинного обучения. В данной статье рассматривается проблема выявления фейковых новостей на арабском языке с использованием моделей машинного обучения. Гибридная модель из двух глубоких нейронных сетей используется для классификации арабских новостных статей с целью выявления фальшивых материалов. Два типа нейронных сетей, используемых в модели, это сверточные сети и двунаправленные сети долгосрочной краткосрочной памяти. Надежные признаки извлекаются с помощью двух различных векторных представлений слов и сложной модели сверточной нейронной сети. Кроме того, набор вспомогательных выхо
Оглавление

Аннотация

Широкое распространение Интернета привело к появлению множества вводящей в заблуждение информации, размещаемой на новостных сайтах и в социальных сетях. Многие авторы новостей и организации манипулируют данными, чтобы распространить ложную информацию на различных языках и в разных сообществах. Точная и своевременная идентификация фейковых новостей во многом осуществляется благодаря технологиям на основе машинного обучения. В данной статье рассматривается проблема выявления фейковых новостей на арабском языке с использованием моделей машинного обучения. Гибридная модель из двух глубоких нейронных сетей используется для классификации арабских новостных статей с целью выявления фальшивых материалов. Два типа нейронных сетей, используемых в модели, это сверточные сети и двунаправленные сети долгосрочной краткосрочной памяти. Надежные признаки извлекаются с помощью двух различных векторных представлений слов и сложной модели сверточной нейронной сети. Кроме того, набор вспомогательных выходных слоев используется для повышения точности модели. Многоуровневая классификация достигается путем модификации основного выходного слоя. Результаты показывают точность 88% для бинарной классификации и 78% для многоуровневой классификации.

Введение

Новости нацелены на различных людей, интересующихся конкретными событиями, темами или фактами. Фейковые новости определяются как непроверенная и манипулируемая информация, которая распространяется, чтобы ввести в заблуждение читателей, создать неправильное представление, заработать деньги или достичь политических целей. Ложная информация создается и распространяется многими сторонами, такими как отдельные лица, группы, социальные боты и новостные организации.

Ложная информация негативно влияет на людей, бизнес, правительства и демократию. В последние годы это может привести к катастрофам в обществе, влияя на журналистику, общество, экономику и политическую безопасность. Например, фейковые новости, связанные с пандемией COVID-19, затронули безопасность, физическое и психическое здоровье общества. Вследствие этого был введен термин «выявление фейковых новостей», который относится к распознаванию обманчивых новостных статей, которые нацелены на людей, чтобы повлиять на их мнение по интересующей теме.

Автоматическое выявление фейковых новостей

Автоматическое выявление фейковых новостей имеет важное значение, поскольку ручное выявление с помощью экспертных журналистов является неудобным, дорогим и времязатратным, что не позволяет обрабатывать большой объем новостей в современную эпоху больших данных. Поэтому необходимы технологии машинного обучения и новостные наборы данных для автоматической идентификации фейковых новостей. Тем не менее, автоматическое выявление фейковых новостей сталкивается с определенными трудностями, поскольку модели машинного обучения требуют большого количества аннотированных статей, которые могут страдать от человеческого предвзятости.

Независимо от языка, автоматическое выявление фейковых новостей является актуальной исследовательской проблемой по всему миру. Наблюдается отсутствие исследований, сосредоточенных на выявлении фейковых новостей на арабском языке по сравнению с английским и другими языками. Более того, большинство доступных наборов данных на арабском языке были собраны для других целей, таких как классификация по категориям или распознавание именованных сущностей.

Предложенная модель

В данной статье предлагается модель автоматического выявления фейковых новостей на арабском языке. Модель превосходит ранее выполненные работы по производительности. В предложенной модели улучшена и усовершенствована гибридная модель нейронной сети за счет извлечения более надежных признаков, что позволяет модели различать различные классы.

  • Сгенерированы два 300-мерных векторных представления слов и поданы во два слоя вложений (GloVe и FastText layers).
  • Расширен одномерный сверточный слой до трех двумерных слоев для извлечения надежных признаков.
  • Используется двунаправленная долгосрочная краткосрочная память для изучения порядка зависимости признаков в обоих направлениях.
  • Применяется набор вспомогательных выходов для увеличения точности модели с модификацией основного выходного слоя для многоуровневой классификации.

Цель состоит в том, чтобы интегрировать предложенную модель обнаружения фейковых новостей в браузеры, где пользователи могут получать предупреждения о возможных фальшивых статьях в реальном времени.

Заключение

В данной статье была предложена модель машинного обучения для выявления фейковых новостей на арабском наборе данных. Технологии CNN и Bi-LSTM использовались в предложенной модели для извлечения более надежных признаков. Модель смогла повысить точность более чем на 7% как для бинарной, так и для многоуровневой классификации.

==> Хотите узнать про автоматизации на n8n? — Здесь основные курсы n8n, вы научитесь автоматизировать бизнес-процессы! <==

-2