Автоматизированное прогнозирование личности с помощью социальных сетей привлекает все большее внимание в сообществах, занимающихся обработкой естественных языков и социальными науками. Однако из-за высокой стоимости маркировки и проблем с конфиденциальностью лишь немногие публично доступные наборы данных имеют ограниченный размер и низкое тематическое разнообразие. Решается проблема путем внедрения крупномасштабного набора данных, полученных из Reddit, источника, который до сих пор не был учтен при прогнозировании личности.
Набор данных помечен индикаторами типа Myers-Briggs (MBTI) и поставляется с богатым набором функций для пользователей более чем 9k. Проводится предварительный анализ характеристик, выявляя заметные различия между размерами MBTI и полюсами. Кроме того, используется набор данных для обучения и оценки эталонных моделей прогнозирования личности. Результаты по итогу обнадеживают и сопоставимы с надежностью стандартизированных испытаний.
Личностные качества - это индивидуальные и устойчивые различия в характере мышления, чувств и поведения. Растет интерес к автоматизированному прогнозированию личности в социальных сетях как со стороны сообщества специалистов по обработке естественных языков, так и со стороны сообщества специалистов в области социальных наук.
В отличие от традиционных личностных тестов, использование которых до сих пор в основном ограничивалось управлением человеческими ресурсами, консультированием и клинической психологией, автоматизированное прогнозирование личности из социальных сетей имеет гораздо более широкое применение, например, в маркетинге социальных сетей и сайтах знакомств и приложениях. Большая часть работы по прогнозированию личности основывается на одной из двух широко используемых моделей личности: Большая пятерка и MBTI. Большая пятерка - это устоявшаяся модель, которая классифицирует черты личности по пяти измерениям: экстраверсия, приемлемость, сознательность, невротизм и открытость. В отличие от этого, модель индикатора типа Майерса-Бриггса (MBTI) распознает 16 типов личности, охватывающих четыре измерения: Введение/экстраверсия (как человек набирает энергию), Чувство/Интуиция (как человек обрабатывает информацию), Мышление/Выделение (как он принимает решения) и Судьба/Воззрение (как он представляет себя внешнему миру).
Несмотря на некоторые разногласия в отношении валидности и надежности испытаний, модель MBTI нашла множество применений, особенно в промышленности. Хотя модели Большой пятерки и MBTI построены на различных теоретических подходах, исследования показали, что их размеры взаимосвязаны.
Постоянной проблемой прогнозирования личности через социальные сети является отсутствие маркированных наборов данных. Это может быть связано с проблемами конфиденциальности (например, в Facebook) и запретительно высокими затратами на маркировку. Немногие из существующих наборов данных страдают от других недостатков, связанных с неанонимностью (что делает пользователей более неохотно выражающими свою истинную личность), ограниченной экспрессивностью (например, в Twitter), низким тематическим разнообразием или сильным пристрастием к темам, касающимся личности (например, на форумах личности). Специально для МБТИ доступны только те базы данных, которые получены из Twitter, эссе и форумов личности.
Очевидно, что отсутствие адекватных базовых наборов данных препятствует развитию моделей прогнозирования личности для социальных сетей. Удобно то, что Reddit является общедоступным и что многие пользователи предоставляют информацию о типах личности MBTI самостоятельно. Кроме того, комментарии и сообщения являются анонимными и охватывают весьма широкий круг вопросов, структурированных в более чем миллионе дискуссионных групп. В целом, набор данных MBTI, полученный на основе Reddit, устраняет все вышеупомянутые недостатки существующих наборов данных прогнозирования личности.
Используются набор данных MBTI для проведения двух исследований. В первом случае извлекается ряд лингвистических и пользовательских характеристик и проводится предварительный анализ по всем измерениям MBTI. Анализ показывает, что существуют заметные различия в значениях этих характеристик для различных полюсов каждого измерения MBTI. Во втором исследовании рассматривается прогнозирование личности в качестве контролируемой задачи машинного обучения и оцениваем ряд эталонных моделей, получая многообещающие результаты, значительно превышающие базовые показатели.
Набор данных MBTI и извлеченные функции общедоступными в надежде, что он будет стимулировать дальнейшие исследования в области прогнозирования личности.
Личностные качества и язык тесно связаны между собой - по сути, модель Большой пятерки возникла в результате статистического анализа английского лексикона. В ходе исследований в области психологии была предпринята попытка установить связь между личностью и использованием языка, заложив основу для исследований по автоматизированному прогнозированию личности.
Большинство ранних исследований в области прогнозирования личности основывались на небольших массивах данных, полученных из эссе, электронных сообщений, бесед, полученных с помощью электронных регистраторов, блогов. MyPersonality стал первым проектом, в котором использовался большой пользовательский контент из социальных сетей, с более чем 7,5 миллионами профилей пользователей Facebook, помеченных типами Big Five. Последующее исследование Косинского и др. по этому набору данных показало, что цифровые следы пользователей в виде "нравится" являются очень хорошим предиктором личности. Schwartz et al использовали базу данных MyPersonality в первом крупномасштабном исследовании по прогнозированию личности на основе текстовых сообщений. Более 15,4 миллиона статусов в Facebook, собранных у 75 тысяч добровольцев, были проанализированы с использованием как закрытого, так и открытого словаря.
Исследование показало, что последние дают лучшие результаты, когда имеется больше данных, что впоследствии было подтверждено и на других сайтах социальных сетей, таких как Twitter. Растущий интерес к прогнозированию личности привел к возникновению двух общих задач, которые основывались на контрольных наборах данных, помеченных типами Большой пятерки. Общий вывод заключался в том, что предсказание личности является сложной задачей, поскольку в ней отсутствуют сильно предсказуемые признаки.
Однако полученные результаты свидетельствуют о том, что n-граммные модели неизменно дают хорошие результаты по различным языкам. Предположительно, из-за разногласий, модель MBTI до сих пор в меньшей степени использовалась для прогнозирования личности. Ситуация изменилась благодаря работе Plank and Hovy, которая использовала популярность MBTI среди широкой общественности и собрала в Twitter более 1,2 млн. обновленных данных о состоянии дел и использовала личные данные пользователей. Вскоре после этого Verhoeven et al опубликовали многоязычный набор данных TwiSty. Наш набор данных для прогнозирования личности получен из Reddit. Reddit ранее использовался в качестве источника данных для различных исследований. De Choudhury and De изучили дискурс о психическом здоровье и пришли к выводу, что пользователи Reddit открыто делятся своим опытом и проблемами с психическими заболеваниями в личной и профессиональной жизни. Schrading et al изучили проблему домашнего насилия и обнаружили, что дискуссионные группы, занимающиеся этой проблемой, имеют более сплоченные общины, более длительные сообщения и комментарии и меньше высказываний, чем группы, не склонные к насилию. Wallace et al рассматривали обнаружение иронии и пришли к выводу, что Reddit предоставляет много контекста, который может помочь в работе с неоднозначными случаями. Шен и Рудзич достигли хороших результатов в классификации тревог с помощью словаря LIWC, n-grams, и тематического моделирования. Насколько нам известно, это первая работа по использованию Reddit в качестве источника данных для прогнозирования личности.
Набор данных
Описание. Дискуссии по Reddit структурированы в созданные пользователем дискуссионные группы, так называемые подгруппы, каждая из которых сосредоточена на одной теме. Каждый подраздел состоит из пользовательских сообщений, которые могут содержать текст, ссылки, видео или графический контент. Пользователи могут комментировать сообщения других пользователей, а также голосовать "вверх" или "вниз". Посты в каждом подразделе ранжируются по количеству комментариев, так что большинство комментариев появляются наверху. Помимо модерирования, многие субреддиты имеют собственные правила ведения дискуссии, которые, как правило, повышают качество дискуссии. База данных сообщений и комментариев Reddit доступна в Google Big Query и охватывает период с 2005 года по конец 2017 года, в настоящее время насчитывающая более 3 миллиардов комментариев и увеличивающаяся на 85 миллионов комментариев в месяц.
Флеры. Отличительной особенностью Reddit'а являются специальные пользовательские дескрипторы, называемые чулки. Стиль - это иконка или текст, который отображается рядом с именем пользователя. Она специфична для каждого из них, и в некоторых из них пользователи используют чулки, чтобы представиться. Помимо типа MBTI, многие пользователи также предоставляют информацию о своем возрасте, поле, типе партнера, семейном положении, медицинском диагнозе, других типах теорий личности и даже стереотипах.
Проблема со вспышками заключается в том, что они сформулированы по-разному, часто неоднозначно. В некоторых случаях может быть трудно определить, относится ли это чутье к типу личности.
Приобретение. Идея заключалась в том, чтобы использовать тип MBTI, о котором сообщалось пользователю, в качестве его индивидуальной типовой метки. Делалось разумное предположение, что если пользователь предоставляет свой MBTI тип, то в большинстве случаев это будет связано с тем, что он прошел хотя бы один личностный тест. Это предположение основано на анализе комментариев пользователей, который показал, что большинство пользователей с самоотчетными типами MBTI сообщают о сдаче множественных личностных тестов, и многие из них даже демонстрируют хорошее знание теории MBTI. Приобретение набора данных было направлено на достижение высокой точности за счет сокращения затрат на отзыв, в том смысле, что ученые предпочитали иметь меньше пользователей с надежными MBTI этикетками, а не больше пользователей с неопределенными MBTI этикетками.