Письменный текст передает много невербальной информации, связанной с личностью автора и социальными факторами, такими как возраст, пол и личность. Однако менее известно, в какой степени поведенческие биометрические следы передают такую информацию. Исследователи использовали машинописные данные для изучения прогнозирования авторства и представляем первые эксперименты по прогнозированию возраста и пола по динамике нажатия клавиш. Полученные результаты показывают, что модель, основанная на особенностях нажатия клавиш, приводит к значительно более высоким погрешностям авторства, чем текстовая система, и при этом на два порядка меньше по величине. Для прогнозирования атрибутов пользователя наилучшим подходом является сочетание этих двух факторов, предполагая, что лингвистические факторы в большей степени раскрываются в письменном виде, в то время как личность автора лучше передается в печатном поведении.
Язык - это социальное явление. Каждый раз, когда мы говорим или пишем, мы передаем много дополнительной невербальной информации, которая связана с личностью и социальными факторами автора. Ранняя работа по анализу авторства обычно была посвящена поиску автора текста, т.е. присвоению авторства. В последние годы наблюдается всплеск интереса к социальным аспектам языка. Исследования заинтересованы в увязке социальных факторов с лингвистическими особенностями, например, изучении смещения данных или построении моделей прогнозирования фактических характеристик из лингвистических особенностей (например, профилирование автора). Особенности автора моделирования могут помочь в дальнейшем улучшить прогнозирование родственных атрибутов, помочь в дезинтеграции моделей или могут быть использованы для широкого спектра приложений, таких как поддержка клиентов, здравоохранение и персонализированный машинный перевод. Исследованные до сих пор факторы включают, в частности, пол, возраст, личность или доход.
Ключевым вопросом при анализе и профилировании авторства является вопрос о том, какие виды доказательств могут иметь отношение к определению авторства (или признаков). Общей чертой всей предыдущей работы является то, что она почти полностью сосредоточена на самом письменном тексте. Когда люди читают или пишут тексты, они бессознательно производят когнитивные побочные продукты, такие как узоры или поведение машинисток. Это вызывает и мотивирует наш исследовательский вопрос: в какой степени поведенческие данные выходят за рамки прогнозирования авторства текста и авторских черт? В этой статье исследователи сосредоточились на динамике нажатия клавиш. Они касаются шаблона ввода текста пользователем. Журналы нажатия клавиш имеют явное преимущество перед другими когнитивными методами, такими как сканирование мозга или взгляд, что журналы нажатий клавиш становятся более доступными; они не зависят от специального оборудования, кроме клавиатуры. Хотя известно, что нажатие клавиш является информативным для проверки автора, менее ясно, в какой степени нажатие клавиш предсказывает авторство и, тем более, черты автора.
Материалы:
- изучение влияния нажатий клавиш для определения авторства в двух компаниях различного размера;
- исследование прогностичесих сил данных машинистов для прогнозирования возраста и пола;
- сравнение поведенческих показателей с традиционными стилометрическими характеристиками.
Динамика нажатия клавиш
Журналы нажатия клавиш - это записи динамики ввода текста пользователем. Когда человек печатает на клавиатуре, задержки между последовательными нажатиями клавиш и их продолжительность отражают его поведение при наборе текста. Исследования динамики нажатия клавиш обычно включают в себя измерение времени нажатия клавиш и события, происходящие между нажатиями клавиш, такие как время удержания клавиш или интервалы между нажатиями.
Лишь совсем недавно этот источник был исследован в качестве информации при обработке естественным языком, например, для облегчения поверхностного синтаксического разбора или обнаружения обмана. Журналы нажатий клавиш используются в компьютерной безопасности для проверки пользователей, однако сочетание биометрических данных нажатия клавиш с традиционными стилометрическими метриками не оказалось успешным. Авторы сосредоточились только на одной задаче и наборе данных. Напротив, в данной работе мы рассмотрим, в какой степени динамика нажатия клавиш является информативной для присвоения авторства и профилирования автора.
Эксперименты
Имея набор данных с журналами нажатий клавиш, проводятся два набора экспериментов:
а) определение авторства, т.е. кто написал данный отрывок текста;
б) профилирование авторства, т.е. определение лингвистических особенностей пользователя, в частности возраста и пола.
Базы данных Два набора данных различаются по количеству пользователей и количеству доступных метаданных:
Первый - STEWART - происходит от студентов, сдавших тест по электронному табличному моделированию. Этот набор данных не распространяется вместе с другими метаданными, поэтому он используется только для указания авторства.
Второй набор данных, VILLANI, больше (144 участника) и содержит демографические метаданные. Записывались нажатия клавиш для двух задач: свободного создания текста и задания копирования (фрагмент фиксированного текста).
Результаты
Случайная исходная точность низкая (0,4% F1). Биометрические поведенческие характеристики работают невероятно хорошо, достигнув производительности в 80-90-х годах. Уже основной набор 52-буквенных функций длительности явно превосходит стилистические функции, достигнув 81% F1-балла. Стилометрические характеристики одного только текста, напротив, достигают значения F1 всего 50%. Обратите внимание, что для набора данных с большим количеством пользователей результаты авторских прав на самом деле выше, что может быть объяснено тем, что меньший набор данных в большей степени контролируется темой (экзаменационные вопросы). На большом наборе данных функции нажатия клавиш превосходят функции на основе текста (слово и символы n-грамм) для авторства, даже в настройках с небольшим количеством пользователей. Поведенческие модели используют значительно меньшее пространство признаков. Добавление стилометрических функций повышает производительность по сравнению с нажатием клавиш, но только для настройки встраиваемых элементов, что приводит к лучшей настройке.
Исходные результаты (большинство исходных данных) выше; эта задача проще. Разрыв между стилометрическими и поведенческими признаками меньше, но сохраняется та же тенденция: биометрические признаки поведения являются прогнозируемыми по полу. В определенной степени это относится и к возрасту (хотя и в меньшей степени). Интересно, что сочетание биометрических данных с традиционными функциями, основанными на маркерах, является наиболее эффективным для профилирования автора, хотя лучший способ различается в зависимости от черты.
Результаты свидетельствуют о том, что личность автора хорошо фиксируется только нажатием клавиш, в то время как текстовый сигнал обеспечивает дополнительные доказательства, которые в совокупности оказываются наиболее эффективными для прогнозирования возраста и пола автора.
Хотя моделирование демографических характеристик пользователей можно рассматривать как один из шагов к устранению предрассудков в НЛП, важно знать о потенциальных негативных побочных эффектах, как со стороны моделирования через потенциальное исключение или двойное использование, так и со стороны данных при работе с конфиденциальными данными (когнитивные поведенческие данные) или ярлыками (например, психическое здоровье).
Выводы
Исследователи показали, что поведенческая биометрия содержит высокопрогнозирующую информацию как для составления профиля автора, так и для его авторства. Что касается атрибуции авторства, то поведенческие метрики нажатия клавиш значительно превосходят традиционные текстовые элементы (слова и символьные униграммы), при этом используется набор элементов, величина которых на порядок меньше (218 против нескольких тысяч элементов). Кроме того, показывает, что динамика нажатия клавиш также является прогнозной для черт автора (пол и возраст). Интересно, что для последней задачи наиболее выгодно сочетать данные поведенческих клавиш с традиционными текстовыми функциями, предполагающими, что черты пользователя раскрываются в большей степени в письменном виде, в то время как идентификационные данные лучше раскрываются при наборе текста.