8312 подписчиков

Между стихами и алгоритмами: как отличить текст, написанный машиной, от написанного человеком

15 января 202415 янв 2024

2 мин

Анализ текстов, собранных машинным способом, и поиск методов их выявления и сравнения с произведениями, написанными живыми людьми, начались не вчера. Как напомнил доцент Школы лингвистики факультета гуманитарных наук НИУ ВШЭ Борис Орехов, еще в 2009 году коллектив математиков во главе с Евгением Гречниковым разработал алгоритм для различения естественного текста и машинного копипаста. Метод они изложили в статье «Поиск неестественных текстов» («Яндекс», Лаборатория комбинаторных и вероятностных методов RCDL, 2009). Он основан на статистическом отслеживании частоты встречаемости пар соседних слов в одном тексте.

Почти 15 лет назад метод работал да и тексты порой можно было отличить на глаз, однако сегодня подход

Тексты пишут не только люди, но и нейросети. Чем более совершенными становятся последние, тем сложнее отличить их произведения от творчества человека. О том, как эту задачу решают филологи, поговорили участники семинара Международной лаборатории языковой конвергенции НИУ ВШЭ.

Анализ текстов, собранных машинным способом, и поиск методов их выявления и сравнения с произведениями, написанными живыми людьми, начались не вчера. Как напомнил доцент Школы лингвистики факультета гуманитарных наук НИУ ВШЭ Борис Орехов, еще в 2009 году коллектив математиков во главе с Евгением Гречниковым разработал алгоритм для различения естественного текста и машинного копипаста. Метод они изложили в статье «Поиск неестественных текстов» («Яндекс», Лаборатория комбинаторных и вероятностных методов RCDL, 2009). Он основан на статистическом отслеживании частоты встречаемости пар соседних слов в одном тексте.

Почти 15 лет назад метод работал да и тексты порой можно было отличить на глаз, однако сегодня подход Гречникова уже не так эффективен в силу использования LLM — моделей больших языков, которые, поддерживая наши цифровые чаты и понимая запутанные фразы, способны генерировать тексты, имитирующие естественный стиль человеческой речи. «Уже не так просто отличить тексты неестественного происхождения на глаз, но в специфических ситуациях это все равно нужно», — подчеркивает Борис Орехов.

«Мера естественности разная для текстов разных доменов. Если тексты должны быть похожи на человеческие, то какие люди имеются в виду? А иногда и не должны быть похожи?» — добавил он.

К примеру, стихи. Как оценивать эту форму художественной речи? Можно ли сказать, что стихи — это бред? Философ Карл Ясперс отмечал, что бред — это ложное убеждение, непроницаемое для опыта и убедительных контраргументов, его содержание невозможно.

Борис Орехов предлагает посмотреть для примера на одно из произведений русского поэта Юрия Карабчиевского «Идущие мимо»:

Что ни башка, то образина. Несут, урча и лопоча, кто — два плеча из абразива, кто — два зажатых кирпича.

Они зачаты от испуга и рождены из тьмы во тьму. И так опасны друг для друга, что ходят врозь, по одному.

Нельзя коснуться, не поранясь. По бровке — как по краю рва. И странно вдруг, что, иностранец, ты понимаешь их слова...

«С точки зрения физики нашего мира как минимум два из приведенных здесь утверждений невозможны, а попытка переубедить поэта в сказанном будет выглядеть глупо», — отмечает Борис Орехов. Юрий Карабчиевский искусно использует синтаксис, но, чтобы распутать строку, нужно время, и из-за этого уничтожается естественность восприятия при чтении.

Похожую картину можно наблюдать и при анализе других стихотворений. Например, Юрия Поплавского:

Был красивый полон удивленья

Что заснул в болоте утопая

Страшно близко к лучшим временам

И проснулся на высоком месте

Только горы преграждали взоры

Но понятно было то что скоро

Облака поднимутся к лазури

Поцелуют небо наяву

Что мы видим здесь? Есть какой-то непонятный «он», имя которого не названо. У автора он красивый, засыпает, пока тонет в болоте. Странное и сбивающее с толку сочетание действий и ситуаций.

Таким образом, несмотря на то, что люди могут установить определенные критерии для оценки ситуации, на практике часто бывает сложно найти простые ответы на сложные вопросы, подчеркивает спикер. Более того, в то время, когда человек совершает ошибки и строит бредовые рассуждения, искусственный интеллект может быть более точным и надежным информатором.

По материалам HSE Daily

Образование

4,84 млн интересуются