Найти тему
Павел Смоляков

25 твитов, чтобы узнать тебя: новая модель чтобы предсказать личность в социальных сетях.

Оглавление
https://pixabay.com/ru/illustrations/%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5-%D0%BA%D0%BE%D0%BC%D0%BC%D1%83%D0%BD%D0%B8%D0%BA%D0%B0%D1%86%D0%B8%D0%B8-1319757/
https://pixabay.com/ru/illustrations/%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5-%D0%BA%D0%BE%D0%BC%D0%BC%D1%83%D0%BD%D0%B8%D0%BA%D0%B0%D1%86%D0%B8%D0%B8-1319757/


В социальных приложениях наблюдается растущая тенденция рассматривать личность пользователей, чтобы обеспечить более адаптивный и персонализированный пользовательский опыт.




Текст, написанный пользователями самостоятельно, часто используется для предсказания личности, измеряемой измерениями параметров личности Большой пятерки: открытости, сознательности, экстраверсии, приемлемости, нейротизма.

Сотни миллионов пользователей участвуют в социальных сетях и обмениваются собственным контентом, поэтому социальные сети предоставляют огромные возможности для моделирования личности.

Предыдущие работы показывают точность моделирования, используя в среднем 200 сообщений в Facebook или даже 100 000 слов. В отличие от этого, пользователи имеют в среднем 22 сообщения в Twitter.

https://pixabay.com/ru/photos/%D0%BC%D0%BE%D0%B1%D0%B8%D0%BB%D1%8C%D0%BD%D1%8B%D0%B9-%D1%82%D0%B5%D0%BB%D0%B5%D1%84%D0%BE%D0%BD-%D1%82%D0%B5%D0%BB%D0%B5%D1%84%D0%BE%D0%BD-%D1%8D%D0%BA%D1%80%D0%B0%D0%BD-1245663/
https://pixabay.com/ru/photos/%D0%BC%D0%BE%D0%B1%D0%B8%D0%BB%D1%8C%D0%BD%D1%8B%D0%B9-%D1%82%D0%B5%D0%BB%D0%B5%D1%84%D0%BE%D0%BD-%D1%82%D0%B5%D0%BB%D0%B5%D1%84%D0%BE%D0%BD-%D1%8D%D0%BA%D1%80%D0%B0%D0%BD-1245663/



Следовательно, непонятно, насколько хорошо эти модели будут работать в реальных жизненных сценариях, где большинство пользователей имеют небольшой объем текста для анализа.

В данной работе исследуется точность предыдущих работ по личностным выводам Большой пятерки как функция от размера вводимого текста. Кроме того, предлагается новый метод индивидуального вывода, который значительно снижает требования к размеру текста.


Встраивание слов в гауссовские процессы

Приведенный здесь метод сочетает в себе вложение слов с гауссовскими процессами. Были извлечены слова из твитов пользователей и усреднено их представление Word Embedding в один вектор. Затем модель Гауссовых процессов берет эти векторы в качестве исходных данных для обучения и тестирования.

Встраивание слов - это техника, представляющая слова как плотный, низкоразмерный и реально значимый вектор. Он основан на синтаксических и семантических связях между словами.

Обычно, изучая большое количество неструктурированных текстовых данных, это представление помогает алгоритмам обучения добиваться лучших результатов при выполнении задач по обработке естественного языка путем сближения аналогичных слов.

Несмотря на то, что существует множество доступных моделей встраивания слов, в данном исследовании был выбран Twitter 200-мерная модель GloVe, поскольку она была использована для обучения на 2B твиттерах. В данной работе также представлена новая нелинейная модель гауссовских процессов (ГП).

Конструкция эксперимента



Достоверные наземные данные получены путем опроса более 1,3 тыс. участников, и сравнена эффективность этого метода с предыдущими методами в различных условиях.

Вслед за предыдущей работой, проводится опрос для сбора личных оценок участников, а также их сообщений в твиттере. Чтобы связаться с участником, было создано веб-приложение и дана его реклама через Twitter.

С помощью этого приложения участники добровольно соглашаются поделиться своими твитами и принять участие в личностном опросе. Для оценки личностных качеств участников опроса используется форма международного пула личных вещей, состоящая из 50 пунктов, на заполнение которой уходит около 15 минут.

После того, как опрос будет завершен, участникам будет представлена оценка их индивидуальных качеств. В этой ситуации участники мотивированы заполнить анкету, чтобы ознакомиться с оценками своей личности.

https://pixabay.com/ru/photos/%D0%BC%D0%BE%D0%B1%D0%B8%D0%BB%D1%8C%D0%BD%D1%8B%D0%B9-%D1%82%D0%B5%D0%BB%D0%B5%D1%84%D0%BE%D0%BD-%D1%81%D0%BC%D0%B0%D1%80%D1%82%D1%84%D0%BE%D0%BD-1917737/
https://pixabay.com/ru/photos/%D0%BC%D0%BE%D0%B1%D0%B8%D0%BB%D1%8C%D0%BD%D1%8B%D0%B9-%D1%82%D0%B5%D0%BB%D0%B5%D1%84%D0%BE%D0%BD-%D1%81%D0%BC%D0%B0%D1%80%D1%82%D1%84%D0%BE%D0%BD-1917737/



Было принято на работу 1323 участника с не менее чем 200 не ретвиттерными твитами. Это позволило разработать выборочный эксперимент с количеством твитов от 10 до 200 и иметь одинаковый набор пользователей для всех экспериментов. Возраст участников: до 18 лет (23%), от 18 до 24 лет (47%), от 25 до 34 лет (14%), от 35 до 54 лет (12%), старше 54 лет (3%). 52% участников - женщины.

Для предварительной обработки твитов были использованы следующие шаги:

  • удаление URL-адреса и хэштэгов;
  • установка текста в нижний регистр, удаление цифр и знаков препинания.



Методы сравнения:метод был сравнен с двумя современными методами - Языковой запрос и подсчет слов (LIWC) с регрессией хребта (RR).



Предложенный метод объединяет функции GloVe с регрессией Гауссового процесса в качестве алгоритма обучения. Чтобы настроить параметры и оценить наши выступления, были использованы 3 набора сплит: обучение, валидация и тестирование.



Результаты

После предварительной работы происходит обучение и тести модели на всех доступных твитах.

Для каждого пользователя тестового набора, было выбрано 20 случайных подмножеств твитов и тест модель на них. Мы варьируем количество твитов в этих подмножествах и сообщаем о соотношении моделей, усредненных по параметрам Big-5, в зависимости от количества твитов.

Во-первых, подтверждено, что для большого количества твитов показатели 3-х методов сходятся к результатам предыдущего корреляционного анализа.

Для 200 твитов выбранный метод на 37% лучше, чем предыдущий, и только с 25 твитами он работает наравне с современным с 200 твитами, т.е. в 8 раз меньше данных.

Сообщенные корреляции являются значимыми. Эти результаты показывают, что выбранный метод превосходит предыдущие ультрасовременные методы в реальном контексте жизни.