Найти тему

Сравнение данных наблюдений в твиттерах с географическими тегами и случайным образом нарисованными твитами

Оглавление
https://c.pxhere.com/photos/3b/3a/twitter_screen_social_phone_cellular_phone_technology_editorial_illustrative-1028513.jpg!d
https://c.pxhere.com/photos/3b/3a/twitter_screen_social_phone_cellular_phone_technology_editorial_illustrative-1028513.jpg!d

Twitter является повсеместным источником микроблогов в социальных сетях, предоставляя академическому, промышленному и государственному секторам доступ к актуальной информации в режиме реального времени. Особенно привлекательным свойством некоторых твитов являются географические теги, в которых учетная запись пользователя согласилась прикреплять свое текущее местоположение к каждому сообщению. К сожалению (с точки зрения исследования) лишь небольшая часть аккаунтов Twitter согласны с этим, и эти аккаунты, вероятно, будут систематически отличаться от обычных пользователей. Данная работа представляет собой исследовательское исследование этих различий по всему спектру контента Twitter и дополняет предыдущие исследования, в которых основное внимание уделялось англоязычной подгруппе.

Пользователи Twitter могут указать в своих твиттерах свое текущее географическое положение. Эта мелкозернистая информация использовалась для решения ряда последующих задач, включая обнаружение ботов и спама, демографический анализ, и повышение осведомленности о чрезвычайных ситуациях и кризисах общественного здравоохранения.

Как отмечается во многих исследованиях, существует ряд причин подозревать, что твиты с геотегами являются прямым источником реалистичной коммуникации между людьми. Популярные средства массовой информации повысили осведомленность общественности об опасностях, связанных с совместным использованием своего местонахождения, в то время как для пользователей, не являющихся людьми (например, бизнесменов, псевдонимов, государственных органов), это может быть именно та информация, которая предназначена для распространения. Более специфические факторы, такие как страна, культура и технологии, еще больше усложняют взаимоотношения между учетными записями и общей базой пользователей.

В ряде предыдущих работ изучался вопрос о том, как пользователи Twitter и их подгруппы соотносятся с населением в целом. Пользователи с геотегами отличаются от населения знакомым образом (более высокая доля городских, молодых, более обеспеченных, имеющих более высокий уровень доходов) и несколько менее понятных способов (большая доля латиноамериканских и негритянских пользователей)), объединенных правительством Великобритании и целевыми исследованиями, человеческой валидацией и информацией из описаний пользователей для сравнения Twitter и общего распределения населения по возрасту и роду занятий, сообщая о значительных различиях между наборами данных и качеством классификаторов. Исследования сосредоточились на 10 крупных городских центрах США и обнаружили значительные различия в возрастной и гендерной демографии. Они отмечают, что такие различия, которые коррелируют с лингвистическими свойствами и сложностью классификации для автоматического геотегирования, а также более высокой активностью пользователей геотегирования, могут привести к завышенной точности в качестве оценочного набора. Основное внимание в этих исследованиях уделялось данным на английском языке и регионам как в Соединенных Штатах, так и в Соединенном Королевстве.

Методы

Использовался потоковый API Twitter для сбора набора данных с геотегами (GT) со всего гетегов за последнюю неделю ноября 2017 года и набора данных без гетегов (NGT) в 1% единообразной случайной выборки за тот же период времени, минус данные без гетегов. Затем были индексированы объекты твиттера и JSON пользователей в ElasticSearch для облегчения сравнения между двумя наборами данных. После изучения нескольких свойств высокого уровня, выбран язык, хэш-тег, упоминание пользователя и часовой пояс.

В результате проделанной работы была извлечена самоидентификация пользователя в твитах, ограничив результаты теми же 33 ролями, которые рассматривались в этом исследовании. Также было нацелено на один и тот же набор ролей, просто запрашивая информацию у пользователей, чье поле "описание" содержит эту роль. Авторы рассмотрели 20 случайно выбранных совпадений для каждой комбинации ролей и методологии. Ученые считают, что совпадения шаблонов в "ретвитах" являются ложноположительными. Интересно, что, несмотря на относительную простоту, запросы описания являются почти повсеместно более точными, в то же время отбрасывая на порядки больше результатов. Поэтому ученые используют его в качестве источника этой демографической информации и проводят те же сравнения для ролед-распределений, что и для других категорийных полей. Обратите внимание, что внимание исследователей на точность частично объясняется тем, что уделяется особое внимание созданию высококачественных наборов данных для обучения, а частично - трудностями измерения объема памяти, особенно для низкочастотных ролей.

Было проведено сравнение тех же самых дискретных особенностей, обусловленные языком, с гипотезой, что возможные причины, такие как спам и коммерческий контент, могут быть особенно сосредоточены на определенных сообществах, для которых язык является приемлемым прокси. Чтобы выяснить, ведут ли себя различные оси вариации GT-NGT (например, хэштеги, роли) в разных языковых сообществах, был рассчитан рейтинговый коэффициент корреляции Спирмена над значениями JSD.

Результаты

1. Сравнения на макроуровне

Сравнивается объем твита GT и NGT на нескольких высокочастотных языках с течением времени. Ожидаемая суточная картина распределения языков в Twitter в целом усугубляется перекосом ГТ в сторону английского и португальского языков, при этом большая часть населения Северной и Южной Америки. Резкий всплеск NGT в Таиланде объясняется тем, что в конкурсе "Мисс Вселенная" принимает участие известная тайская спортсменка.

Сравнение часовых поясов отражает схожие тенденции, а также позволяет обнулить по некоторым конкретным местам, таким как Иркутск, Багдад и Париж. Для лучшего понимания этих данных было бы полезно определить различные способы установки поля часового пояса, возможно, в тандеме с исходной информацией (устройство, приложение).

2. Хэш-теги и упоминания пользователя

Было проведено сравнение подсчетов наиболее часто встречающихся хэш-тегов и упоминаний пользователя, соответственно. В хэш-тэгах доминирует дискуссия о конкурсе "Мисс Вселенная", особенно из Таиланда. Если не принимать во внимание такие единовременные события, большинство меток являются англоязычными и связаны с потенциальной занятостью, с общими ценностями, такими как работа, карьера в Арктике, прием на работу и такие отрасли, как гостиничное дело, здравоохранение, обслуживание клиентов. Они почти повсеместно имеют географические метки, что подтверждает гипотезу о том, что институциональные счета являются вероятным источником большей части информации, помеченной географическими метками. Невидимые на рисунке метки, относящиеся к различным криптовалютам, как правило, не имеют географических меток, что, возможно, отражает культурные и технологические аспекты этой демографической группы.

3. Самоидентификация

Сравнивается относительная частота каждой роли в наборах данных GT и NGT, которые имеют высокую корреляцию Спирмена - 0,944. Роли, сосредоточенные на религии (христианской, атеистической) и музыкальном фандоме (Белибер, режиссер), имеют сильное предпочтение перед геотегами, а роли с участием исполнителей (певец, актер, спортсмен, болельщица) представляются более популярными в обществе.

4. Изменения в зависимости от языка

Все значения корреляции между вариациями у Спирмэна, указывают на положительную ассоциацию, но на гораздо более низком уровне, чем распределение ролей на английском языке. Вариации упоминаний пользователей и хэш-тегов более коррелированы друг с другом, чем с часовым поясом, что может быть связано с их намеренным использованием по сравнению с пассивной настройкой часового пояса пользователями (опять же, лучшее понимание того, как устанавливаются часовые пояса, поможет в интерпретации этого).

Исследователи расширили предыдущую работу над различиями между геотегами и негеотегами в англоязычных твиттерах до полного набора наблюдаемых языков. В поисках агрегированной статистики пользователей мы определили, что поиск по ключевым словам в описаниях пользователей обеспечивает более высокую точность и возможность вызова, чем обычные выражения, применяемые к сообщениям.

Планируется использовать это в качестве контролируемого вклада в дискриминационные модели для извлечения неограниченной самоидентификации в будущей работе и экспериментов по распространению этого метода за пределы английского языка. Другие интересные дополнения включают изучение корреляции между региональной и языковой вариациями и известными культурными и политическими осями, а также дополнительную индексацию структуры/содержания для сравнения других способов вариации.

Наконец, в данном исследовании не рассматривались непосредственно контент-поля (тексты в твиттере и описания пользователей) за рамками специального случая ролевого извлечения для создания дополнительных категориальных полей для английского языка. Будущая работа могла бы расширить его на вариации простых лексических признаков, которые легко извлекаются без обработки с учетом специфики языка.