Недавние исследования в области текстовых экспериментов по распознаванию личности с различными языками, методов извлечения признаков и алгоритмов машинного обучения для создания более совершенных и точных моделей; однако мало внимания уделяется изучению использования языка группой лиц, определяемой по национальности.
Лица одной национальности разделяют определенную практику и обмениваются некоторыми идеями, которые могут быть заложены в их родном языке. Многие граждане Филиппин говорят не только на одном языке, как, например, филиппинцы говорят на филиппинском и английском - двух национальных языках Филиппин. Добавление нескольких региональных/местных языков, наряду с распространенностью переключения кодов, позволяет филиппинцу иметь богатый словарный запас. Это дает возможность создать текстовую модель личности, основанную на том, как говорят филиппинцы, независимо от используемого ими языка. Для этого были собраны данные от 250 филиппинских пользователей Twitter.
Для создания моделей личности для каждой из Большой пятерки были опробованы различные комбинации методов обработки данных. Результаты как для регрессии, так и для классификации показывают, что Сознание последовательно является самой простой чертой для моделирования, за которой следует Экстраверсия. Классификационные модели приемлемости и нейротизма имеют неудовлетворительные эксплуатационные характеристики, но работают лучше, чем классификационные модели открытости. Анализ представления оценки черт личности показал, что классификация экстремальных выбросов обычно дает лучшие результаты по всем признакам, за исключением нейротизма и открытости.
Характеристики личности направлены на описание уникальности личности с точки зрения ее взаимодействия внутри себя, с другими людьми и в определенных условиях. Наиболее распространенным представлением или моделью черт личности, используемой сегодня, является пятифакторная модель. МСД, которую иногда называют "большой пятеркой", измеряет личность человека по пяти измерениям или признакам: открытость, сознательность, экстраверсия, дружелюбие и нейротизм. Важно отметить, что черты различаются в зависимости от степени. Другими словами, можно считать кого-то экстравертом, но кто-то может быть более экстравертным.
Большая пятерка" обычно оценивается с помощью вопросников, таких как инвентаризация Большой пятерки, однако альтернативой оценке Большой пятерки человека является анализ его стиля письма. То, как человек пишет, надежно стабилизируется в течение определенного периода времени, что похоже на стабильность его "большой пятерки". Многочисленные исследования также показали, как определенные стили письма соотносятся с определенной степенью индивидуальности, начиная от анализа студенческих эссе и рефератов из журналов и заканчивая отправкой по электронной почте в веб-блоги и публикациями из социальных сетей. Именно благодаря этой связи между личностью и письмом возникла область распознавания личности на основе текста.
Хотя в этой области были достигнуты большие успехи в определении самых современных методов обработки данных, извлечения элементов и машинного обучения, мало внимания уделяется изучению использования языка группой лиц, определяемой, например, по национальности, в моделировании черт личности. Лица одной национальности разделяют практику и сталкиваются с определенными ситуациями, которые могут привести к развитию определенных психологических тенденций. Беседы и дискуссии выявляют индивидуальные различия, которые в конечном итоге становятся неотъемлемой частью естественного языка. Однако многие граждане Филиппин говорят не только на одном языке, как, например, филиппинцы говорят на филиппинском и английском - двух национальных языках Филиппин. Добавление ряда региональных/местных языков, наряду с распространенностью переключения кодов, позволяет филиппинцу иметь богатый и разнообразный словарный запас. Этот богатый словарный запас дает возможность создать текстовую модель личности, основанную на том, как говорят филиппинцы, независимо от языка, которым они пользуются.
Для этого было разработано веб-приложение для сбора личных данных и данных в сети Twitter, в котором приняли участие 250 филиппинцев. Затем были проведены эксперименты с исходными оценками личности, с тем чтобы определить степень репрезентативности (непрерывной или дискретизированной), которая позволила бы лучше всего отразить информацию. Затем твиты обрабатывались с использованием простых, не зависящих от языка методов обработки естественного языка. Наконец, личность моделировалась с использованием методов регрессии и классификации.
В ходе первых исследований месторождения в основном проводились эксперименты с различными методами извлечения элементов на наборе данных Pennebaker и King Essay и для классификации использовались различные машины с вспомогательным вектором. Argamon et al. сосредоточились на определении высоких и низких (сверху и снизу) баллов индивидуумам по измерениям Экстраверсии и Нейротики. Функции были извлечены на основе списка функциональных слов, наряду с другими функциями, основанными на Системной функциональной грамматике.
Их работа показала, что простые лингвистические особенности содержат информацию при определении личностных характеристик - задача, требующая "сфокусированных вопросов", подобных тем, которые содержатся в анкетах личностного характера. Метод, приведший к лучшему улучшению, заключался в использовании сенсорных вычислений для извлечения знаний здравого смысла из информации об аффективности и настроениях. В предыдущих исследованиях выяснилось, что легче всего моделировать открытость, в то время как приемлемость была самой трудной задачей для моделирования.
Что касается исследований, в ходе которых собираются данные из онлайновых источников, то особое внимание уделяется блоговым сайтам. Блоги являются интересным источником данных в силу их личного характера. Другие ранние исследования, в которых использовались источники онлайновых данных, были направлены на социальные сети, такие как Twitter и Facebook, с тем чтобы иметь дело с огромным объемом данных. Два исследования были очень похожи, так как они использовали LIWC для обработки текста из Twitter и Facebook, соответственно. Основное отличие заключалось в использовании информации, характерной для конкретного сайта, такой как внутренняя статистика Facebook или использование Twitter. В последнем исследовании также использовался MRC в качестве дополнительного средства получения информации.
В настоящее время тенденции в области распознавания личности на основе текста вращаются вокруг использования Deep Learning, как алгоритма обучения, и встраивания слов, как способа представления текста. Исследования, как правило, не отличаются от использования этих двух методов, но отличаются друг от друга по источникам данных.
Методология
В ходе исследования собирались данные и применялся подход к моделированию черт личности с помощью различных комбинаций предварительной обработки данных, извлечения признаков, уменьшения признаков и методов машинного обучения.
Заключение
Это исследование позволило собрать текст и личные данные 250 филиппинских пользователей Twitter и использовать их в твиттере, независимо от языка, для создания моделей черт личности. В ходе этого процесса были опробованы различные комбинации методов обработки данных и машинного обучения с целью определения оптимальных конфигураций и создания оптимальных моделей. Результаты показывают, что Сознание - это черта, легко поддающаяся моделированию, за которой следует Экстраверсия.
С другой стороны, открытость - самая сложная черта для моделирования. Эксперименты по регрессии не дали подходящих моделей, но, по крайней мере, показали, что простые значения TFIDF содержат некоторую информацию для Сознания и Экстраверсии. Модели классификации дают лучшие результаты и, как правило, выигрывают от моделирования выбросов вместо классификации всех участников. Наконец, нейротизм и открытость также не выиграли от моделирования экстремальных выбросов, что означает, что выбросы для данного признака нелегко различимы.
Поскольку все участники были филиппинцами, дальнейший анализ содержания может дать представление о том, как проявляются черты личности через использование филиппинских пользователей Twitter на родном языке. Добавление более глубоких методов извлечения элементов, таких как тематическое моделирование или интеграция нескольких языковых ресурсов, также может помочь в улучшении характеристик моделей.
Наконец, создание конкретных моделей групп лиц, определяемых демографическими характеристиками, таких как возраст, пол или национальность, независимо от количества используемых языков, оказывается полезным подходом в моделировании личности и может служить отправной точкой для понимания их языкового стиля.