16,9 тыс подписчиков

Как отличить текст, созданный нейросетью

3 февраля3 фев

2813

3 мин

Вот интересно, а у вас есть список признаков, которые помогают определить, что текст написан нейросетью? Понятно, что мы, читая что-то, ощущаем это на каком-то интуитивном уровне, а обвинять авторов в использовании нейросетей стало даже чем-то вроде моды, но можно ли написать какой-то конкретный список? Делитесь в комментариях своими личными наблюдениями, если они у вас есть, а ниже - моя попытка это сделать. Для примера не будем далеко ходить, зайдём на один из каналов в Дзене, почитаем пару статей про ретро-игры и подёргаем оттуда скриншоты для иллюстраций. Ну и сразу скажу, что ни одно из этих правил не будет являться абсолютом - речь идёт об их чересчур частом использовании по сравнению с обычной речью. 1) "Правило трёх". "Пишем про X, Y, Z". Считается, что такой "тройной" аргумент кажется для читателя наиболее удовлетворительным. И, чего греха таить, это часто так и есть. В мире огромное количество текстов с такой структурой (Квадратиш, практиш, гут), откуда нейросети ей и научил

Для примера не будем далеко ходить, зайдём на один из каналов в Дзене, почитаем пару статей про ретро-игры и подёргаем оттуда скриншоты для иллюстраций. Ну и сразу скажу, что ни одно из этих правил не будет являться абсолютом - речь идёт об их чересчур частом использовании по сравнению с обычной речью.

1) "Правило трёх".

"Пишем про X, Y, Z".

Считается, что такой "тройной" аргумент кажется для читателя наиболее удовлетворительным. И, чего греха таить, это часто так и есть. В мире огромное количество текстов с такой структурой (Квадратиш, практиш, гут), откуда нейросети ей и научились.

2) Уход в английский язык или США.

"Эта статья про бренд XXX, который обязательно надо записать латиницей".

Значительная часть текстов для обучения нейросетей - на английском языке. И, что самое главное - это не только литература или что-то похожее, но и научные статьи, официальные документы и так далее. То есть, это такой огромный объём данных, который просто невозможно перебить - поэтому в текстах будут появляться англоязычные (или иногда китайские) термины, особенно если они не общеизвестны в русском языке.

3) Противопоставления.

"Это не X - это Y". Нейросети очень любят противопоставления. Почему? Ну, во-первых, этот метод есть в большом количестве критики, исследований и тому подобных штук. А во-вторых - для нейросети это идеальный способ держать правильное направление беседы - отметать заведомо неправильный вариант и говорить правильный.

4) Склонность к полужирному тексту.

"Я пишу статью про X, Y и Z".

Нейросети очень любят выделять "смысловые" слова полужирным, там, где без этого вполне можно обойтись. Причина до невозможности банальна - это обучение на веб-контенте, где долгое время выделение текста полужирным служило способом для продвижения текста в поисковых системах.

5) Списки.

Ну какая же статья без длинного вертикального списка. Причины тут примерно похожи на предыдущий пункт: во-первых, среди обучающих материалов куча всяких данных с перечислением, а во-вторых, самой нейросети самой нейросети составлять списки просто удобно - составление списка это просто действие с повтором алгоритма, это сильно уменьшает шансы на появление бессвязного текста. И обязательно - на американский манер, без знаков препинания в конце каждой строки.

6) Весомое заключение, независимо от текста

"Я написал на заборе X, и вот каким уроком для человечества это может быть".

Любой текст требует какого-то завершения - и большинство текстов, действительно написаны с каким-то выводом. Поэтому нейросети выучили этот подход и стараются чисто статистически что-то сгенерировать, даже если это не предполагается самим текстом.

7) Упор на физиологические ощущения.

"Меня отвлекло громкое, словно набат, жужжание мухи, к горлу подступил ком, и я до побеления костяшек сжал кулаки".

С этим очень интересно. Скорее всего, дело в правиле "Показывай, а не рассказывай", которое накрепко зашито во многие тысячи текстов о писательском мастерстве. Поэтому, создавая какой-то более-менее литературный текст, нейросеть пытается сделать его "литературным", по максимуму добавляя в него звуки, запахи, ощущения, личные воспоминания и прочие подобные вещи, даже там, где они не предполагаются изначально.

8) Отсутствие тавтологий.

Это очень сложно уловить на первый взгляд. Но вообще у нейросетей есть "наказание" за повторы, поэтому все тексты они стараются писать максимально разнообразным языком - тем более, что словарный запас синонимов у них намного больше. Поэтому там, где человек обычно будет писать одно и то же слово (как начинающие авторы постоянно повторяют "он" в своих книгах), нейросеть по умолчанию постарается подобрать кучу синонимов.

Такой вот список. Я специально не включил в него строгое соблюдение правил, потому что про него и так многие знают, и сейчас многим авторам, которые просто про привычке пишут грамотно, прилетает в комментариях за использование тире и кавычек-ёлочек. Список мой пока небольшой, но, как мне кажется, он довольно неплохо работает. Как минимум, Дипсик, которого я попросил написать такую же статью, спалился на первом же предложении.

Гаджеты и электроника

5,73 млн интересуются