Обнаружение языка ненависти в тексте социальных медиа является важной задачей Естественного языка Обработки, которая имеет несколько важных приложений, таких как анализ настроений, расследование кибербуллинга и изучение социально-политических противоречий. Хотя соответствующие исследования проводились независимо друг от друга в отношении смешанных кодовых текстов в социальных сетях и выявления языка ненависти, наша работа является первой попыткой выявления языка ненависти в смешанном тексте социальных сетей на хиндийском и английском языках.
В этой статье проведен анализ проблемы обнаружения языка ненависти в смешанных кодовых текстах и представлен набор данных на хинди-английском языке, состоящий из твитов, размещаемых в сети Twitter. Твиттеры сопровождаются аннотациями языка на уровне слова и класса, к которому они принадлежат (язык ненависти или нормальная речь). Также предлагается контролируемая система классификации для выявления языка ненависти в тексте с использованием различных уровней символов, словарного запаса и лексиконов.
В связи с недавним резким увеличением объема данных, генерируемых пользователями в социальных сетях, появились огромные возможности для автоматизированного анализа текстов в области компьютерной лингвистики. Популярность таких богатых мнениями онлайновых ресурсов, как обзорные форумы и сайты микроблогов, побуждает пользователей выражать и передавать свои мысли во всем мире в режиме реального времени. Это часто приводит к тому, что пользователи размещают оскорбительный и оскорбительный контент в Интернете, используя язык вражды. Они могут быть направлены на отдельных лиц или общины, чтобы продемонстрировать свое несогласие.
Таким образом, выявление языка ненависти важно для законодателей и социальных медиа-платформ, чтобы не допустить совершения каких-либо противоправных действий. Предыдущие исследования, связанные с этой задачей, были в основном посвящены моноязычным текстам в связи с их широкой доступностью. Однако в многоязычных обществах, таких как Индия, использование смешанных кодовых языков (среди которых хинди-английский является наиболее распространенным) довольно часто используется для передачи мнений в Интернете. Code-Mixing (CM) - это естественное явление встраивания языковых единиц, таких как фразы, слова или морфемы одного языка в произнесение другого.
Насколько нам известно, в настоящее время для выявления языка ненависти в Интернете нет смешанных ресурсов, содержащих код. Ученые считают, что первоначальные усилия по созданию смешанного набора данных на хинди-английском языке для выявления языка ненависти окажутся чрезвычайно ценными для лингвистов, работающих в этой области.
Был проведен анализ данных, полученных с постов в Facebook от двуязычных хинди-английских пользователей. Анализ показал, что в сообщениях присутствует значительное количество кода смешивания. Создан корпус с аннотациями кода на хинди-английском языке с тегами POS и сообщено о проблемах и трудностях в тексте на хинди-английском языке со смешанным кодом. Ученые также провели эксперименты по идентификации языка, транслитерации, нормализации и POS-маркировке набора данных. рассмотрели проблему поверхностного разбора смешанного текста социальных сетей хинди-английского кода и разработали систему, которая может идентифицировать язык слов, нормализовать их в своих стандартных формах, присвоить POS-теги и разделить на фрагменты.
Исследователи рассмотрели проблему идентификации языка на бенгальско-инди-английском Facebook. Они составили аннотацию корпуса и достигли точности 95,76%, используя статистические модели с моноязычными словарями. разработали систему классификации вопросов для смешанного языка хинди-английского кода с использованием ресурсов на уровне слов. Были также организованы совместные задания по классификации кодового смешанного кросс-скриптового вопроса и по поиску информации в твиттерах с хинди-английским кодом, где задача заключалась в получении лучших твитов из корпуса для данного запроса, состоящего из хинди-английских терминов, где хинди написаны в транслитерированной форме на латыни, что позволило решить проблему смешанного текста IR MSIR (Mixed-Script IR).
Так же был изучен метод выявления языка ненависти в социальных сетях. Они представили контролируемую систему классификации, в которой используются характерные n-граммы, n-граммы и пропущенные граммы. Им удалось добиться точности 78% в наборе данных, содержащем английские твиты с аннотациями с тремя обозначениями, а именно: язык ненависти (язык ненависти), оскорбительные выражения, но не язык ненависти (OFFENSIVE); и отсутствие оскорбительного содержания (OK).
Ученые рассмотрели проблему обнаружения языка ненависти на итальянском языке. Они создали свой аннотированный корпус, используя комментарии, полученные с публичных страниц итальянских газет, политиков, художников и групп в Facebook. Они провели два различных классификационных эксперимента: первый - по трем различным категориям ненависти (сильная ненависть, слабая ненависть и отсутствие ненависти), а второй - только по двум категориям: отсутствие ненависти и ненависть, где последняя категория была получена путем слияния классов сильной и слабой ненависти. В обоих экспериментах им удалось достичь максимальной точности 64,61% и 72,95% соответственно.
Создание и аннотация корпуса
За последние пять лет был создан хинди-английский свод правил с использованием твитов, размещенных в Интернете. Были искажены твиттеры, выбирая определенные хэштэги и ключевые слова из политических соображений: публичные протесты, беспорядки и т.д., которые имеют хорошую склонность к присутствию языка ненависти.
Аннотация
Ненавистническая речь или нормальная речь: Каждый твит заключен в метки. Первая строка в каждой аннотации состоит из идентификатора твита. Языковые теги добавляются перед каждым маркером твита, заключенным в теги. Каждый твит аннотируется одним из двух тегов (язык ненависти или обычная речь). Язык ненависти обнаружен в 1661 твитере. Оставшиеся 2914 кодовых твитов в наборе данных состоят из обычной речи.
Соглашение между аннотаторами
Аннотации к набору данных для выявления языка ненависти составляли два человека, владеющих языками хинди и английским языком. Оба аннотатора получили набор образцов аннотаций, состоящий из 50 твитов (25 сообщений, содержащих язык ненависти, и 25 сообщений, не содержащих язык ненависти), выбранных случайным образом из всех частей корпуса, с тем чтобы иметь справочную базу для проведения различия между языком ненависти и языком, не содержащим языка ненависти.
Архитектура системы
Предварительная обработка смешанных кодовых твитов
Ниже описаны шаги, которые были выполнены для предварительной обработки данных перед извлечением элемента контура.
- Удаление URL-адресов: Все ссылки и URL-адреса в твитах сохраняются и заменяются на "URL", поскольку они не способствуют возникновению каких-либо настроений в тексте.
- Замена имен пользователей: В твитах часто встречаются упоминания, адресованные определенным пользователям. Замечены все подобные упоминания на "USER".
- Замена смайликов : Все смайлики, используемые в твитах, заменены на "Emoticon".
- Удаление пунктуаций: Все знаки препинания в твите удаляются. Однако, прежде чем удалять их, был сохранен подсчет каждого знака препинания, поскольку был использован в качестве одного из признаков классификации.
Результаты
Проведены эксперименты с двумя разными классификаторами - машинами с опорными векторами с радиальным базисным ядром и случайным лесным классификатором. Поскольку размер формируемых функциональных векторов очень велик, был применен алгоритм выделения элементов хи-квадрат, который уменьшает размер функционального вектора до 12004. Во всех экспериментах была проведена 10-кратную перекрестную валидация.
В этой статье был представлен аннотированный корпус смешанного текста на хинди-английском языке, состоящий из идентификаторов твита и соответствующих аннотаций. Также представлена контролируемая система, используемая для обнаружения языка ненависти в смешанном коде. Корпус состоит из 4575 кодовых твитов с аннотациями языка ненависти и нормальных высказываний. Слова в твитах также сопровождаются аннотациями к исходному языку слов. В рамках будущей работы корпус может быть аннотирован тегами части речи на уровне слова, которые могут дать лучшие результаты. Кроме того, аннотации и эксперименты, описанные в настоящей статье, могут быть также осуществлены в будущем в отношении смешанных кодовых текстов, содержащих более двух языков из многоязычных обществ.