Найти тему
Цветок науки

Современный словарь для анализа настроений

Оглавление

Введение

Анализ настроений получил повышенное внимание в последнее десятилетие в качестве подзадачи обработки естественного языка. Поставленную задачу можно условно охарактеризовать как классификацию целых документов или их частей (предложений или фрагментов текста, обозначающих определенный аспект, относящийся к определенному объекту).

Большинство усилий сосредоточено на классификации документов, относящихся к конкретной области, как правило, коротких текстов, таких как обзоры продукции и твиты, хотя другие, более сложные задачи становятся все более распространенными, такие как определение эмоциональности и интенсивности. Корпусные и лексические подходы традиционно отличались общей архитектурой системы. Строго говоря, первые используют обучающий корпус для извлечения текстовых сигналов, найденных в каждом из помеченных документов, в то время как вторые используют лексикон чувств, в котором хранятся сентиментальные слова.

На практике, однако, практикующие специалисты НЛП сочетают методологии обоих подходов, например, (Riloff et al., 2006). В целом, лексические подходы предпочтительнее для классификации на уровне предложений (Andreevskaia and Bergler, 2007), в то время как корпусные статистические подходы предпочтительнее для классификации на уровне документов.

Словари чувств - это распространенная методика, так как наличие определенных сентиментальных слов определяет полярность текста, в котором они появляются.

WordNet (Fellbaum, 1998) является постоянным источником лексической информации (Kim and Hovy, 2004; Hu and Liu, 2004; Andreevskaia and Bergler, 2006) либо непосредственно в качестве источника лексической информации, либо для построения лексики настроений.

Другие распространенные лексики, используемые в исследовании английского языка для анализа настроений, включают The General Inquirer (Stone and Hunt, 1963), MPQA (Wilson et al., 2005) и Bing Liu's Opinion Lexicon (Hu and Liu, 2004).

Другие исследователи использовали сочетание существующих лексиконов или создали свои собственные (Hatzivassiloglou and McKeown, 1997; Turney, 2002).

https://www.pinterest.ru/pin/784048616354855800/?nic=1a&sender=654288789522516017
https://www.pinterest.ru/pin/784048616354855800/?nic=1a&sender=654288789522516017

Использовать лексику иногда было просто, когда одно лишь присутствие сентиментального слова определяет определенную полярность. Однако отрицание и интенсификация могут изменить валентность или полярность этого слова.

Изменение настроений в контексте также широко признается и рассматривается некоторыми исследователями (Kennedy and Inkpen, 2006; Polanyi and Zaenen, 2006; Choi and Cardie, 2008; Taboada et al., 2011).

Недостатком одной только лексики чувств является то, что различные области могут значительно изменить ценность слов, что хорошо известно в литературе (Aue and Gamon, 2005; Pang and Lee, 2008; Choi et al., 2009).

Для этого был предложен ряд решений, в основном с использованием специальных словарей, которые иногда создаются автоматически из корпуса доменных имен (Tai and Kao, 2013; Lu et al., 2011).

Процесс создания

Lingmotif-lex является результатом многолетней работы в области компьютерной лексикографии и тестирования на различных задачах анализа настроений. Начнем с объединения доступных словарей настроений.

Получившийся в итоге лексикон был затем расширен полуавтоматически с использованием тезауруса и правил генерации производных. Поскольку мы решили использовать систему градации вместо бинарной полярности, все пункты были ранжированы вручную по шкале от -5 до -5 группой обученных комментаторов, используя методы консенсуса и корпусной лингвистики.

https://www.pinterest.ru/pin/617133955164911853/?nic=1a&sender=654288789522516017
https://www.pinterest.ru/pin/617133955164911853/?nic=1a&sender=654288789522516017

Вышеупомянутые первоначальные ресурсы, однако, характеризуются недостаточным вниманием к многословным выражениям (MWE).

Понятие "многословные выражения" означает не только полярность очень часто, но и служит хорошим ресурсом для дезинформации полярности (Moreno-Ortiz et al., 2013), и поэтому является ключевым для успешного анализа настроений на основе лексики.

В целях обеспечения хорошего охвата MWE, мы использовали ряд не специфических для ЮА лексических ресурсов, включая общие идиомы из Wiktionary, которые мы отметили вручную для Valence. В конечном счете, лексиконы являются результатом интенсивной лексикографической работы Лингмотива.

Система форматирования и оценки стоимости

Набор языков Lingmotif-lex состоит из трех компонентов: сам лексикон, правила контекста, которые учитывают контекстное изменение настроений.

Была разработана библиотека кодов для облегчения сопряжения входных данных с лексическими ресурсами.

Сначала полярность и интенсивность выражались в виде простого целого отрицательного или положительного числа. Однако нынешняя система позволяет нам выражать случаи, когда полярность не четко определена или сильно зависит от контекста, но когда наличие интенсивности неоспоримо, что является весьма распространенной ситуацией.

Такие слова и выражения, как "дикий", "злой", "больной" или "о, мой бог", являются яркими примерами. Таким образом, даже если этот формат представляет некоторые дополнительные трудности обработки, он приобретает выразительную силу и позволяет пользователям применять свои собственные методы расшифровки, если это необходимо.

Система валентности в версии релиза, основанная на 3-балльной шкале интенсивности, также отличается от шкалы, использовавшейся в предыдущих версиях приложения Lingmotif и описанной в другом месте, где использовалась более мелкозернистая, 5-балльная шкала.

Считается, что это полезно в некоторых случаях, таких как градация прилагательных, но во многих других случаях это труднее определить. Текущая более крупная 3-балльная шкала более интуитивно понятна для комментаторов (низкая, средняя, высокая интенсивность), и столь же полезна для практических целей.

-3