8312 подписчиков

Как распознать текст, написанный машиной

8 ноября 20238 ноя 2023

2 мин

Группа заместителя руководителя департамента анализа данных и искусственного интеллекта, старшего научного сотрудника факультета компьютерных наук НИУ ВШЭ Василия Громова провела анализ крупномасштабных языковых структур естественных языков. Ученые создают систему обнаружения текстов, написанных ботами, для решения глобальной проблемы влияния текстов на формирование установок человека.

Если предыдущие поколения воспитывались преимущественно на классической литературе, написанной людьми, то современное — на постах в соцсетях и все больше — на текстах, написанных ботами. По мнению профессора, это может привести к деформации языковой личности. Поэтому одна из задач работы — научиться различать тексты людей и ботов.

В основу исследован

Об этом рассказали участники очередного семинара стратегического проекта НИУ ВШЭ «Устойчивый мозг: нейрокогнитивные технологии адаптации, обучения, развития и реабилитации человека в изменяющейся среде», который реализуется по программе «Приоритет-2030».

Группа заместителя руководителя департамента анализа данных и искусственного интеллекта, старшего научного сотрудника факультета компьютерных наук НИУ ВШЭ Василия Громова провела анализ крупномасштабных языковых структур естественных языков. Ученые создают систему обнаружения текстов, написанных ботами, для решения глобальной проблемы влияния текстов на формирование установок человека.

Если предыдущие поколения воспитывались преимущественно на классической литературе, написанной людьми, то современное — на постах в соцсетях и все больше — на текстах, написанных ботами. По мнению профессора, это может привести к деформации языковой личности. Поэтому одна из задач работы — научиться различать тексты людей и ботов.

В основу исследования легли тексты русской и английской литературы, но также учитывались другие тексты вплоть до сообщений из соцсетей.

«Мы взяли все слова и биграммы и преобразовали их в вектор. В результате мы получили множество точек в многомерном векторном пространстве. Для него мы придумали красивое слово “хайланакея” — с гавайского языка оно переводится как “знаковая беспредельность” или “знаковые небеса”», — рассказал Василий Громов.

Как показало исследование, в гигантском семантическом пространстве языка имеются области, которые посещают только люди, а также области, посещаемые исключительно ботами.

Также оказалось, что структура созданного векторного пространства неоднородна, она напоминает швейцарский сыр. Топологический анализ показал «нити и узлы», составленные из наиболее употребляемых словосочетаний, области, наполненные редкими словосочетаниями, а также «дыры», в которые язык в своем развитии еще не дошел.

На границах этих «дыр» обнаружился юмор: то, что сейчас воспринимается как остроумная шутка, через столетие становится сложным философским понятием, которое изучают, пытаясь осмыслить и объяснить. Таким образом, выяснилось, что язык развивается в том числе через и благодаря юмору.

При этом выяснилось, что при генерации текстов боты держатся подальше от «дыр», в то время как люди могут приближаться к их границам и заполнять их.

«Словарь ботов и людей одинаков, но, когда мы говорим о биграммах и триграммах, все иначе. Бот, насколько бы умным он ни был, — это выученная программа, и его тянет к наиболее типичным последовательностям слов. А человек, насколько бы он ни был необразованным, тянется к неожиданным последовательностям слов, то есть к границам “дыр”. Эта разница видна и статистически значима. По этому критерию мы можем отличать тексты людей от текстов ботов», — пояснил Василий Громов.

Как распознать текст, написанный машиной

По материалам HSE Daily