Найти тему
Мир информации

Социально-эмоциональные связи капитализации в Twitter

https://c.pxhere.com/images/4d/20/b26616c940a85532f30b872f7672-1438947.jpg!d
https://c.pxhere.com/images/4d/20/b26616c940a85532f30b872f7672-1438947.jpg!d

Текст в социальных сетях изобилует необычными шаблонами написания заглавных букв. Мы полагаем, что использование такого значка, как THIS, выполняет две выразительные функции: выделяет человека в социальном плане и выделяет некоторые части высказывания как более значимые, чем другие. Сосредоточив внимание на гендере и настроениях, иллюстрируется с помощью множества твитов, что капитализация проявляется в более негативном, чем позитивном контексте и используется в большей степени женщинами, чем мужчинами. Тем не менее, видно, что оба пола используют капитализацию одинаковым образом при выражении чувств.

Гендерные линии разделяют использование языка в речи; в письменной форме; и в социальных сетях. Неудивительно, что и мужчины и женщины по-разному используют эмоциональный язык. Ученые приводят пример слабости. В то время как женщины чаще используют это слово в положительном контексте, поскольку в шоколаде - моя слабость, мужчины более склонны использовать его, когда говорят отрицательно.

Орфографический выбор, в частности, удлинение (coool) и удаление коды, оказались социально значимыми и связаны с настроениями. Однако насколько известно, в этом контексте вопрос об использовании капитализации еще не рассматривался.

Текст в социальных сетях изобилует нестандартными заглавными буквами. Хотя многие согласны с тем, что капитализация имеет определенную коммуникативную функцию, на практике эта информация часто интерпретируется как шум и удаляется с помощью процедур нормализации текста на ранних этапах в трубопроводах для обработки природного языка.

Предполагается, что капитализация (операционализированная здесь как количество полностью заглавных слов в твите) имеет две функции. Использование такого же же значка, как THIS, делает человека социально значимым и выделяет некоторые части высказывания как более значимые, чем другие. Таким образом, капитализация кодирует информацию о пользователе и его отношении, которая может быть полезна для NLP задач, таких как анализ настроений.

Принимая во внимание эти предлагаемые функции, исследование сосредоточивается на изучении различий в динамике капитализации в отношении двух переменных: пола пользователя и настроений в твиттере.

Наш анализ расширяет существующую литературу по орфографическим вариациям в социальных сетях, заполняя исследовательский пробел в капитализации. Мы определяем критерии значимости для проведения различия между тем, когда капитализация используется для условных обозначений (например, в акронимах) и когда она используется творчески для добавления выразительной стоимости, поскольку мы заинтересованы только в последней.

Результаты показывают, что капитализация в Twitter действительно варьируется с точки зрения гендера и настроений, и что эффект усиливается, если рассматривать только значимо капитализированные жетоны. Мы не видим эффекта взаимодействия, что говорит о том, что оба пола используют капитализацию одинаковым образом, когда речь идет о выражении чувств.

Первым шагом в изучении возможных взаимосвязей между полом и настроениями было получение ярлыков настроений для каждого твита. Мы воздержались от использования текстовых элементов (например, "счастливые" слова или "печальные" слова) для аннотации нашего набора данных, маркированных по полу, поскольку мы заинтересованы в изучении распределения заглавных букв, т.е. самой текстовой составляющей. Скорее, предпологалось, что полярность смайликов, найденных в твите, является достоверным показателем настроений в твитере.

Для каждого твита, содержащего хотя бы один смайлик, определялось его настроение, сопоставляя смайлики с метками человеческих настроений (положительными, отрицательными или нейтральными). Из этого набора мы сохранили только позитивные и негативные твиты, для которых не было конфликтов в настроениях эмоций. Другими словами, мы исключили твиты, содержащие как положительные, так и отрицательные эмоции.

В результате этого процесса было опубликовано 75 670 твитов, посвященных как гендерным вопросам, так и настроениям. Из этих твитов ученые получили случайный отбор из 19 028 твитов, сбалансированных по половой (мужской или женской) и эмоциональной (позитивной и негативной) группам.

Методология

Предварительная обработка

Все твиты были токенизированы с помощью инструментария естественного языка (NLTK) TweetTokenizer1. Были удалены неалфавитные маркеры и маркеры, состоящие менее чем из трех символов.

Определение значимой капитализации

Хотя утверждается, что капитализация имеет экспрессивную функцию, это не всегда применимо ко всем токенам с большой буквы. Например, аббревиатуры часто употребляются с большой буквы, чтобы показать читателю, что токен является запасной частью более длинной строки, а не творческим языковым ресурсом, на который пользователи могут опираться для самовыражения.

Тем не менее, очевидно, что в некоторых случаях использование слова с заглавной буквы приводит к изменениям в интерпретации, поскольку это так круто по сравнению с тем, что так круто, что это может служить цели имитации реальных речевых сигналов, таких как интонация или объем.

Для реализации этой интуиции был установлен пороговый уровень, позволяющий отфильтровывать акронимы из наших данных. Был получен подсчет частоты появления токена в верхнем и верхнем регистре (нижнем регистре или заглавном регистре) в корпусе из 15 миллионов твитов и назвали токен значимо капитализированным, если он появлялся в верхнем регистре менее 10% времени. Определение значимой капитализации приведено ниже.

Анализ

В рамках категорий мужских, женских, положительных и отрицательных мы определили маркеры, которые наиболее вероятно будут капитализированы путем расчета вероятности капитализации каждого конкретного маркера. Например, если в нашем корпусе рип был прописан 9 раз из 10, то вероятность равна 0,9. Для снижения шума в наших выводах мы рассмотрели токены, которые появляются не менее 10 раз в анализируемой категории. Мы также определили токены, которые, скорее всего, будут значимо капитализированы.

Результаты

Среднее количество заглавных и значимых заглавных маркеров для каждой группы представлено на рисунках 1a и 1b, соответственно. Для обоих полов капитализация в большей степени используется в негативном контексте.

Выводы

В среднем, капитализация используется в большей степени женщинами и используется для выражения негативности, чем позитивности. Крайне важно, чтобы использование капитализации выполняло функции как маркера идентичности, так и маркера настроений, следуя схеме, аналогичной другим видам нестандартной орфографии, таким как удлинение или фонологически мотивированное изменение.

Использование заглавных букв может служить еще одной функцией в дополнение к сигнальным акронимам и кодированию отношения пользователей. Если маркер может относиться к нескольким сущностям, капитализация может помочь отличить один смысл от другого, позволяя пользователям ссылаться, скажем, на диапазон TOOL, а не на категорию инструментов. Хотя мы не были заинтересованы в выявлении таких случаев, понимание того, что капитализация имеет функции, выходящие за рамки того, что обсуждается здесь, открывает новые возможности для исследований.

Это исследование было ограничено наличием данных в Twitter, которые помечены как по полу, так и по настроениям. Вместе с тем, набор данных полностью состоит из твитов, содержащих смайлики, что может смещение выборки в сторону пользователей, предрасположенных к использованию языка (включая заглавные буквы) определенным образом. Выбирая твиты в зависимости от того, содержат ли они смайлики, можно ввести возраст, пол и/или предубеждения в отношении настроений. В будущем эти предрассудки можно было бы смягчить, включив в них обозначения человеческих чувств.

Есть подозрения, что заглавные буквы - это своего рода реплика для разговора, которая помогает прояснить смысл высказывания по поводу текстовых сообщений и помогает читателю выбрать одно из возможных толкований. По мнению Вандергриффа, эти сигналы трудно поддаются изучению, поскольку они часто бывают "тонкими, очень изменчивыми и относительно редкими".

Несмотря на эти ограничения, анализ показывает, что капитализация кодирует информацию о характеристиках и отношении спикеров, ставя под сомнение широко распространенную практику полного занижения регистра в НЛП.

В работе представлен вычислительный подход к анализу особых орфографических характеристик, пронизывающих социальные медиа, и капитализация позиционируется как тип орфографической вариации, требующий дальнейшего изучения, а также более детального анализа с точки зрения функций и распределения. Использование капитализации может быть связано с другими демографическими факторами, такими как возраст, и может выполнять различные функции в зависимости от контекста, в котором она появляется.