Найти в Дзене

Джонс Хопкинс или Джонни Хопкинс: Классификация отдельных лиц в сравнении с организациями в Twitter

Оглавление
https://c.pxhere.com/images/2a/27/128344af42c7c70e45a0bfb318a6-1437765.jpg!d
https://c.pxhere.com/images/2a/27/128344af42c7c70e45a0bfb318a6-1437765.jpg!d

Учетные записи в Twitter включают в себя множество различных типов пользователей. Хотя многие люди пользуются Twitter, организации также имеют аккаунты в Twitter. Выявление мнений и тенденций в Twitter требует точной дифференциации этих двух групп. Ученые представляют метод, основанный исключительно на профиле аккаунта, позволяющий классифицировать отдельных лиц по отношению к организациям на основе одного твита. Этот метод позволяет получить погрешности, сопоставимые с методами, которые основаны на гораздо большем количестве информации, используя два усовершенствования: построенную на символах свернутую нейронную сеть и автоматически созданный корпус на порядок большей величины, чем ранее имевшийся набор данных.

Twitter стал благом для исследователей, изучающих тенденции в тенденциях мнений и поведения в масштабе. Многие приложения из области политологии, лингвистики, здравоохранения и вычислительных социальных наук используют Twitter и другие социальные сети в качестве наборов данных.

Телефонные опросы и другие традиционные анализы в этих областях часто включают в себя сбор демографической информации для отдельных лиц в рамках исследования. Это привело к тому, что анализ социальных сетей также включал такую демографическую контекстуализацию.

Тем не менее, Twitter и другие социальные сети, как правило, не предоставляют демографических характеристик пользователей. В связи с этим было разработано несколько систем для автоматического определения демографических характеристик пользователей. Было доказано, что различные системы хорошо работают при классификации пола, этнической принадлежности и географического положения. Эти классификаторы используют пользовательские данные для прогнозирования этих отсутствующих демографических признаков; некоторые методы используют твиты, написанные пользователем, а другие отслеживают, за кем следует пользователь.

Эти инструменты делают центральное допущение: учет, по которому делается демографический вывод, принадлежит индивидууму. Однако учетные записи в Twitter принадлежат не только частным лицам; эта платформа широко используется организациями для представления их интересов на платформе, и может не иметь смысла делать вывод о половой принадлежности организации. При использовании данных Twitter в исследованиях исследователям не следует объединять людей в Twitter с организациями и брендами, использующими эту платформу.

Несмотря на различия между индивидуальными счетами и счетами организаций, в большинстве аналитических материалов Twitter такого различия не проводится. Это самый простой вариант и может быть разумным упрощением при проведении некоторых анализов, однако объединение этих двух групп может привести к возникновению предубеждений. Единственным ранее готовым к использованию инструментом для этой задачи является McCorriston et al. Ученые рассматривают эти вопросы для того, чтобы определить, кто из них отдельные лица, а кто организации. Исследователи могут использовать этот корпус или реконструировать новый корпус в будущем в соответствии с данным подходом.

Данные

Целью исследования было создание большого количества аккаунтов в Twitter, аннотированных как отдельные пользователи, так и организации. Вместо того, чтобы полагаться на ручную маркировку счетов, ученые ищут автоматизированный метод, основанный на слабом контроле за обнаружением и маркировкой этих счетов.

Списки твиттеров

Пользователи Twitter могут создавать "списки", коллекции аккаунтов Twitter, сгруппированные по темам. Примерами таких списков могут служить "организации социальной справедливости" или "члены волейбольной команды". Списки являются полезными способами краудсорсинга идентифицированных и организованных аккаунтов Twitter.

Ученые идентифицировали людей в Твиттере через ссылку на страницу профиля LinkedIn в профиле пользователя в Твиттере. После завершения сбора данных мы случайным образом отобрали 100 из этих счетов и обнаружили, что все они были правильно промаркированы. В общей сложности этими двумя методами был составлен список из 180 тыс. человек и 28 тыс. организаций.

Ограничения

В своей работе ученые исходили из упрощающего предположения, что все аккаунты являются либо частными лицами, либо организациями, и игнорируем другие возможные типы аккаунтов Twitter. Ученые предполагают, что сначала учетные записи обрабатываются системами обнаружения ботов, чтобы идентифицировать их либо как "человеческих", либо как "нечеловеческих" пользователей, где нечеловеческие пользователи могут быть разделены на "спам-ботов, платных роботов или влиятельных ботов". В этой работе они рассматривают эти категории ботов как ортогональные, т.е. бот-спамбот или бот влияния может выдавать себя за человека или организацию, инструмент учитывает только это последнее обозначение. Это упрощающее предположение может быть разумным с учетом данных, которые мы рассматриваем.

В собранных списках и данных LinkedIn обнаружено, что эти методы с высокой вероятностью идентифицируют счета, которые совпадают с предполагаемой маркировкой. Однако некоторые обозначения могут быть явно неверными, а другие - двусмысленными в глазах аннотаторов. Списки Twitter генерируются и именуются пользователями и могут иметь вводящие в заблуждение заголовки или содержать ошибочные аккаунты. Вторым недостатком этих учебных данных является то, что они взяты не из репрезентативной выборки пользователей Twitter. Аккаунты, которые добавляются в списки других пользователей, скорее всего, более популярны, чем случайно выбранные аккаунты, и лица, которые связывают свой аккаунт в Twitter со страницей LinkedIn, скорее всего, имеют более профессиональный вид в своем профиле или твитах. Это может привести к тому, что наш классификатор ошибочно оценит менее популярных пользователей организации или учетные записи тех, кто не использует Twitter профессионально.

Результаты

Хотя метод Гуманизмайзера немного превосходит наши n-граммовые и CNN модели, он требует значительно большего объема данных на одного пользователя. Точность теста метода Гуманизмайзера на расщелинах была немного ниже, чем пятикратная точность перекрестной валидации, описанная в работе МакКористона и др. Возможно, это связано с тем, что ученые не смогли загрузить 14% пользователей из исходного набора данных или не смогли перенастроить их гиперпараметры на данные твита с 2018 года.

Фактически, в полном объеме разница между ними не является статистически значимой . Это является убедительным доказательством того, что этот набор данных, хотя и дешево собранный с шумными ярлыками, имеет большое значение для классификации организаций и отдельных лиц в случайной выборке Twitter.

Если в первом эксперименте n-граммовая модель несколько превзошла CNN, то во втором наблюдался обратный тренд. Возможно, это связано с тем, что меньший набор данных в первом эксперименте был достаточен для наших n-граммных функций, разработанных вручную, но не достаточен для того, чтобы модели CNN могли изучать надежные характеристики уровня символов только на основе данных.

В совокупности эти два эксперимента показывают, что метод, требующий всего одного твиттера на одного пользователя, может быть обучен использованию дешевых данных для классификации организаций в твиттере и работать по сравнению с инструментом, обученным работе с высококачественными данными с сотнями твиттеров на пользователя. Этот метод позволяет классифицировать организации по миллиардам твитов без необходимости загружать значительные дополнительные данные на одного пользователя, так же позволяет проводить анализ в потоковой среде, в которой их решения должны приниматься в режиме реального времени без дополнительного сбора данных.

Будущая работа должна определить, коррелируют ли прогнозы нашего инструмента с прогнозами систем обнаружения ботов и может ли эта модель быть использована для прогнозирования ботов или других нечеловеческих типов счетов. Также были включены функции контента Humanizr с именем и характеристиками профиля, которые представляются. Еще одним направлением будущей работы является рассмотрение вопроса о том, можем ли мы контролировать любые отклонения в нашем слабо контролируемом наборе данных для получения более точных прогнозов на основе достоверных данных на местах. Поскольку зачастую легче собрать большой объем шумных данных, чем небольшой объем данных золотого стандарта, такой подход может быть широко применен для изучения эмоций и личности пользователей Twitter.

Ученые опубликовали метки типа аккаунта и пользовательские сообщения Twitter для набора учебных данных, а также код для извлечения функций и проведения экспериментов. Также предоставлены предварительно подготовленная модель классификации аккаунтов Twitter. Код, данные и модели доступны в качестве дополнения к инструменту "Демограф".