Тексты пишут не только люди, но и нейросети. Чем более совершенными становятся последние, тем сложнее отличить их произведения от творчества человека. О том, как эту задачу решают филологи, поговорили участники семинара Международной лаборатории языковой конвергенции НИУ ВШЭ.
Анализ текстов, собранных машинным способом, и поиск методов их выявления и сравнения с произведениями, написанными живыми людьми, начались не вчера. Как напомнил доцент Школы лингвистики факультета гуманитарных наук НИУ ВШЭ Борис Орехов, еще в 2009 году коллектив математиков во главе с Евгением Гречниковым разработал алгоритм для различения естественного текста и машинного копипаста. Метод они изложили в статье «Поиск неестественных текстов» («Яндекс», Лаборатория комбинаторных и вероятностных методов RCDL, 2009). Он основан на статистическом отслеживании частоты встречаемости пар соседних слов в одном тексте.
Почти 15 лет назад метод работал да и тексты порой можно было отличить на глаз, однако сегодня подход