41 подписчик

Создание аннотированного набора данных обзоров магазинов приложений с функциями оценки на английском и испанском языках

16 ноября 201916 ноя 2019

6 мин

В данной статье описывается создание и аннотация набора данных, состоящего из 250 обзоров магазинов приложений на английском и испанском языках из Google Play Store с функциями оценки. Это одна из наиболее влиятельных лингвистических структур для анализа оценок и мнений в дискурсе, благодаря своим глубоким описательным особенностям. Тем не менее, он не был широко применен в НЛП, несмотря на его потенциал для классификации субъективного содержания этих обзоров. Платформы распространения приложений или магазины приложений распространились за последнее десятилетие, позволяя пользователям не только осуществлять поиск, покупку и развертывание приложений для мобильных устройств, но и делиться своим мнением о них и других продуктах магазина приложений (например, фильмы, игры, музыка и т.д.) в текстовых обзорах не только на английском, но и на других языках, таких как испанский. Так обстоит дело с Google Play Store, где обзоры приложений и других продуктов публикуются в Интернете. Работа НЛП н

Оглавление

Оценка
Методология аннотации
Резюме и обсуждение

Платформы распространения приложений или магазины приложений распространились за последнее десятилетие, позволяя пользователям не только осуществлять поиск, покупку и развертывание приложений для мобильных устройств, но и делиться своим мнением о них и других продуктах магазина приложений (например, фильмы, игры, музыка и т.д.) в текстовых обзорах не только на английском, но и на других языках, таких как испанский. Так обстоит дело с Google Play Store, где обзоры приложений и других продуктов публикуются в Интернете.

Работа НЛП над этими обзорами в основном была сосредоточена на извлечении закономерностей, связанных с продолжительностью обзора, его содержанием, особенностями размещения и двусмысленностью, а также на их полярности с помощью методов машинного обучения с использованием векторов частоты языковых особенностей, хотя и была разработана более амбициозная работа по классификации обзоров на три и пять рейтинговых классов с использованием ряда лингвистических характеристик, включая интенсивность, отрицание, модальность и структуру дискурса.

Оценка

Оценка - это лингвистическая теория субъективности, разработанная в рамках Системно-функциональной лингвистики для моделирования способности языка выражать и обсуждать мнения и взгляды в рамках текста. Ресурсы оценивания рассматриваются как собственная система в рамках языка и могут быть разделены на три подсистемы: Отношение, выход из категории наименее развитых стран и вовлеченность.

Разработанная до сих пор работа в основном ограничивалась лингвистикой и в основном была сосредоточена на английском языке, хотя некоторые кросс-лингвистические исследования с участием европейских и неевропейских языков появились в течение последнего десятилетия. Это включает контрастную работу с английскими и испанскими журналистскими текстами, обзорами потребителей и другими видами текстов.

Методология аннотации

Шаги аннотации:

На основе основных элементов, предложенных в теории оценки, были разработаны схема и руководящие принципы аннотации по трем осям: отношение, вовлеченность и выход из категории наименее развитых стран.
Исследования в рамках соглашений были направлены на проверку эмпирической обоснованности схемы аннотаций. Они были проведены двумя независимыми аннотаторами, работавшими отдельно над учебным корпусом из пятидесяти обзоров мобильных приложений.
На основе результатов исследований соглашения был составлен более крупный корпус из двухсот обзоров, состоящий из одних аннотированных оценочных тегов схемы аннотаций, содержащих утвержденные оценочные теги.
Распределение оценочных тегов было рассмотрено в обзорах на английском и испанском языках с целью получения характеристики этого жанра.

Схема и руководящие принципы аннотаций

На основе оценочных тегов, предложенных Martin and White, разработана первоначальная схема аннотаций, состоящую из более общего базового набора тегов и расширенного набора тегов с некоторыми более деликатными характеристиками. Основной набор тегов был общим для английского и испанского языков.

Исследования соглашений

Для проверки воспроизводимости меток схемы были разработаны три эксперимента (также называемые "исследования соглашений"). Первый эксперимент был направлен на определение пролетов или маркировок, второй - на выбор трех основных типов оценки, а третий - на отбор мелкозернистой маркировки из более деликатных подтипов.

Результаты исследований соглашений

Результаты первого эксперимента показали довольно высокую степень согласия между программистами, хотя некоторые разногласия наблюдались и в небольшом проценте случаев (4%). Эти случаи имели место, когда пролет выбирался одним из датчиков, а не другим, или когда длина пролета была иной. В большинстве случаев разногласия выражаются в длинных и сложных предложениях, которые не отражают непосредственно мнение, но должны быть увязаны с контекстом, чтобы придать им оценочный смысл, как, например, в случае

Аннотация к более широкому набору данных

Следующий шаг заключался в аннотировании большего набора данных с помощью проверенных тегов предлагаемой схемы аннотаций. Он состоял из двухсот текстов, отфильтрованных и отобранных в соответствии с той же процедурой, что и набор учебных материалов: он включал сопоставимые тексты на английском и испанском языках, равномерно распределенные.

Результаты аннотаций

На общем уровне наиболее часто аннотированной категорией было отношение (40,89%), за которым следовали вовлеченность (35,64%) и выход из категории (23,46%). Однако, если посмотреть на более специфические метки, то чаще всего встречались метки "Контракция" (26,93%). Это связано с количеством отрицаний (отрицание) и гипотетических ситуаций (счетчик), которые включены в оба языка. Второй наиболее распространенной категорией является оценка стоимости (24,59%), что следует ожидать, поскольку аннотированные тексты богаты оценкой или выражениями, передающими ценность, связанную с объектом, и их целью является описание этих объектов обзора. Наконец, метка с третьим по величине числом проявлений - Force (23,14%), которая включает все те усилители и квантификаторы, которые увеличивают или уменьшают значение других существительных, прилагательных или глаголов.

Резюме и обсуждение

Результаты аннотаций в расширенном наборе указывают на интересные тенденции в распределении оценочных тегов в обзорах на английском и испанском языках, хотя они и не были статистически значимыми. Во-первых, было показано, что обзоры мобильных приложений особенно богаты метками отношения, за которыми следует "Занимательность", в то время как метки выхода встречаются гораздо реже. Распределение отражает коммуникативную цель этих текстов, которая заключается в представлении мнения пользователей о конкретном продукте.

Таким образом, большинство меток оценки представляют собой выражения отношений, которые приписывают ценность рассматриваемому предмету или выражают чьи-то чувства, связанные с ним. Необходимость привлечения других пользователей к проведению обзоров также находит свое отражение в достаточно широком использовании меток взаимодействия как в английских, так и в испанских обзорах. Теги оценки, используемые для усиления или смягчения идей, появляются в этих обзорах гораздо реже, указывая на то, что пользователи предпочитают другие стратегии оценки, чтобы выразить свое мнение о данном продукте...

Оценка является наименее используемой категорией в Отношении, вероятно, потому, что она включает в себя значения, используемые для оценки поведения людей, а не объектов или продуктов.

Заключительные замечания

Работа над аннотацией двуязычного (англо-испанского) набора данных обзоров мобильных приложений с оценочными характеристиками пролила свет на ряд теоретических и прикладных вопросов, которые заслуживают внимания исследователей в области обработки естественных языков (НЛП) и лингвистического сообщества. С теоретической точки зрения эмпирическая проверка схемы аннотаций будет способствовать уточнению и переформулированию некоторых элементов оценки, которые оказались проблематичными в аннотации жанра обзоров мобильных приложений, и, как мы надеемся, будет способствовать дальнейшей прикладной работе с другими жанрами и другими языками.

Будущая работа будет сосредоточена на изучении реализации Оценки в длинных фразах и предложениях, с тем чтобы найти общие, проверенные черты, которые не поддаются интерпретации читателями. Другим интересным направлением будущих исследований является расширение эмпирической валидации более деликатных оценочных признаков, по которым в нынешнем своде документов не было обнаружено достаточных доказательств. Было бы также уместно расширить нынешний перечень вопросов, рассматриваемых в настоящем документе, с тем чтобы охватить более широкий круг продуктов и найти возможные группы вопросов, которые имеют общие характеристики оценки, подтверждая тем самым тенденции, отмеченные в настоящей работе, или отклоняясь от них.