Найти в Дзене
Steinvard

Нейросети ни при чём. Мифы о текстах якобы от ИИ

В Дзене мне попалась статья о том, как выявить текст, написанный искусственным интеллектом. Автор этой статьи назвал 10 признаков, которые, по его мнению, указывают на нейротекст. Я же среди перечисленных признаков не увидел ни одного реального и надёжного признака того, что какой-либо текст сгенерирован нейросетью. Речь об этой статье от Дзен-канала «Популярная наука». Далее перечислены якобы признаки текста, составленного машиной. Автор «Популярной науки» пишет, что человеческому тексту присущи слова заковыристые, странные и даже устаревшие, такие как «прошмыгнуть» и «хлопнуть по рюмашке», а нейросеть же, наоборот, использует более простой лексикон. Поэтому отсутствие в тексте подобных слов и выражений якобы выдаёт нейротекст. Первым делом я попросил нейросеть Алиса от Яндекса написать заковыристый текст со странным устаревшим лексиконом, и вот какие слова и фразы этот текст содержал: Затем я попросил Алису написать более современный текст, соответствующий обычной речи простого обыва
Оглавление
Possessed Photography / Unsplash
Possessed Photography / Unsplash

В Дзене мне попалась статья о том, как выявить текст, написанный искусственным интеллектом. Автор этой статьи назвал 10 признаков, которые, по его мнению, указывают на нейротекст. Я же среди перечисленных признаков не увидел ни одного реального и надёжного признака того, что какой-либо текст сгенерирован нейросетью.

Речь об этой статье от Дзен-канала «Популярная наука». Далее перечислены якобы признаки текста, составленного машиной.

Небогатый язык

Автор «Популярной науки» пишет, что человеческому тексту присущи слова заковыристые, странные и даже устаревшие, такие как «прошмыгнуть» и «хлопнуть по рюмашке», а нейросеть же, наоборот, использует более простой лексикон. Поэтому отсутствие в тексте подобных слов и выражений якобы выдаёт нейротекст.

Первым делом я попросил нейросеть Алиса от Яндекса написать заковыристый текст со странным устаревшим лексиконом, и вот какие слова и фразы этот текст содержал:

  • вельми дивно размышлять;
  • блюсти меру;
  • потчевать себя снедями суетными;
  • воистину глаголют;
  • посему внимайте гласу разума.

Затем я попросил Алису написать более современный текст, соответствующий обычной речи простого обывателя, жившего в СССР в середине 20-го века. Сгенерированный текст содержал:

  • по уму подходить;
  • как не в себя;
  • деньги на ветер;
  • приспичит;
  • ну их в болото;
  • лапшу на уши вешают.

Как видим, нейронка от Яндекса легко справилась с поставленной задачей: тексты могут изобиловать самым разным лексиконом в разных стилях, если объяснить программе, что конкретно мы от неё хотим. От себя добавлю, что я как автор нечасто использую в своих текстах необычные и устаревшие слова и выражения и в основном тяготею как раз таки к более простому лексикону, чтобы он был понятен максимально широкой публике.

Что касается непосредственно богатства языка, существует много людей с малым словарным запасом и примитивным мышлением, что отражается и в речи таких людей, и в их текстах. Само собой, обычно такие люди идут в совершенно другие сферы деятельности, но некоторые пробуют себя в написании текстов и становятся обыкновенными графоманами — в наше время завести блог в интернете может каждый. В конце концов, многие учатся в школе на тройки и продолжают учиться так же в колледже или вузе. После учёбы все эти люди никуда не исчезают и с соответствующим уровнем образования идут работать в разные профессии, в том числе и в копирайтинг.

А ещё существуют тексты, содержание которых является чисто информационным и потому не предполагает, чтобы они изобиловали разнообразным лексиконом. Например, он вряд ли будет уместен в новостях, инструкциях и статьях энциклопедического толка.

Много длинных тире

Этот якобы признак машинного текста меня удивил. Тире — это пунктуационный знак, связывающий слова в предложении. Я — тот автор, который использует тире. Я вообще считаю, что это лучший знак пунктуации среди всех существующих.

Этот знак не требует сложного сочетания клавиш. Чтобы напечатать тире, на клавиатуре надо набрать Alt+0151. У меня за годы работы с текстом это происходит машинально. А ещё тире и другие знаки и символы можно сохранить в отдельном текстовом файле и просто копировать их оттуда, если так удобнее.

Автор «Популярной науки» пишет, что нейросеть вставляет тире везде, к месту и не к месту. Возможно, какие-то языковые модели так и поступают. А ещё так поступают многие авторы, которые плохо понимают, зачем тире нужны, и местами используют их как будто бы для красоты или только чтобы подчеркнуть, что в этом месте текста должна быть пауза.

Стереотипизация

Автор «Популярной науки» заявляет, что тексты, в которых Сталина называют диктатором, с вероятностью 90% составлены ИИ. Если я правильно понял, здесь имеется в виду тяготение к приевшимся ассоциациям, а возможно, даже к стереотипному мышлению.

Я допускаю, что языковые модели могут иметь в своих «мозгах» крепкую связь между словами «Сталин» и «диктатор». А знаете, у кого в мозгах тоже присутствует эта логическая связь? У меня. И как бы вы ни относились к Сталину, вы вряд ли будете спорить с тем, что он правил Советским Союзом единолично.

Автор «Популярной науки» также упомянул, что называть Сталина диктатором — это дурной тон. Пусть это будет так. Как бы там ни было, вы даже не представляете, сколько людей в мире имеют дурной тон, просто потому что по-другому не умеют и не хотят уметь. И текстов таких людей это тоже касается.

В природе всё движется по пути наименьшего сопротивления, а человеческий мозг старается всё упрощать, чтобы оптимизировать свою работу. Потому что думать — это энергетически затратно. Отсюда и возникают и в мышлении, и в речи всевозможные упрощения. Поэтому ассоциации и стереотипы — это чисто человеческое явление. У нейросетей же подобное может встречаться, потому что они обучены на человеческих текстах, которые отражают человеческое мышление. Как говорится, с кем поведёшься, от того и наберёшься.

Канцеляризмы и корпоративный сленг

Ещё один якобы признак машинного текста — это канцеляризмы, шаблонные конструкции и речевые клише. Могут ли некоторые языковые модели в силу своей искусственности и несовершенства использовать всё это при генерации текстов? Вполне. А ещё всё это используют люди, которые имеют небольшой словарный запас и плохо формулируют свои мысли.

Однажды я шёл по улице, и передо мной шли два мужика, которые активно беседовали. И я бы не придал этому значение, если бы их речь, устная речь, не была бы наполнена канцеляритом и корпоративным сленгом чуть менее чем полностью. Эти люди всю дорогу обсуждали какие-то рабочие процессы, и я больше никогда не слышал, чтобы люди вот так общались.

Что касается нейросетей, вернёмся к первому пункту этой статьи. Как мне уже удалось выяснить, нейронка может сгенерировать текст практически в любом стиле и с любым содержанием, если дать ей чёткую задачу. Если Алиса от Яндекса успешно с этим справилась, то и ChatGPT от OpenAI справится.

Общие фразы

Автор «Популярной науки» пишет, что нейротексты выдают чрезмерная формальность и отсутствие конкретики. Я сразу обратился к Алисе от Яндекса с вопросом на тему другой моей статьи, которая сейчас в работе, и Алиса выдала качественный ответ со множеством конкретных фактов, которые полностью соответствуют тому, что я сам уже выяснил, когда исследовал материалы по теме. Помимо самого вопроса, я попросил Алису обосновать свой ответ, и она с этим успешно справилась.

Знаете, в чьих текстах много обобщения и мало конкретики? В текстах тех авторов, которые плохо понимают тему, на которую пишут. Поэтому им ничего не остаётся, кроме как всё обобщать и упрощать, в том числе неосознанно. А малое количество фактов разбавляется общими фразами, чтобы текст стал объёмнее. Также не стоит забывать про графоманов, они способны написать очень много и совершенно ни о чём.

Списки

Этот пункт частично продолжает предыдущий по части формальности в текстах нейросетей. Сгенерированный Алисой ответ из предыдущего пункта действительно представлял собой практически сплошной список из сгруппированных фактов и тезисов. И нейросети действительно часто формируют тексты в виде списков. В моём случае ответ в виде списка был уместным и удобным для восприятия, но такую подачу информации можно назвать формальной.

Поэтому я попросил Алису переформулировать ответ в виде обычного текста так, как если бы этот текст мне в мессенджере написал мой друг. В итоге по содержанию получилось всё то же самое, но уже никаких списков, а подача информации стала куда менее формальной. Такой текст можно было бы с минимальной редактурой опубликовать в тематическом Телеграм-канале. Возможно, я получил такой хороший результат, только потому что задал нейронке конкретный вопрос и детально объяснил, что я от неё хочу. Таким образом, от изначального списка не осталось ни следа, хотя текст по факту на 100% сгенерирован ИИ.

Отсутствие ассоциаций и отсылок

Автор «Популярной науки» указывает на отсутствие ассоциаций и культурных отсылок как на признак нейротекста. И здесь я начну с того, что не каждый автор умеет работать с ассоциациями и делать меткие отсылки. Для этого нужно иметь высокий уровень креативности и определённое мышление. Вот я не помню, чтобы я так делал в своих текстах.

И вот я снова попросил нейронку от Яндекса сгенерировать текст, но уже с культурными отсылками. Сперва отсылок в тексте не было, и я составил более конкретный запрос. В результате новый текст содержал упоминания известных фильмов и сериалов, Станиславского с его крылатым «Не верю!», был упомянут Винни-Пух и даже процитирован Сократ. Но по итогу Алиса не справилась: отсылок оказалось сделано даже слишком много, и все они были максимально поверхностными, неинтересными и просто ненужными.

В этом деле Алисе явно не хватает глубины. Либо запрос должен быть настолько конкретным и детальным, что пользователь нейронки уже и сам мог бы написать нужный текст. Предположу, что другие языковые модели тоже не умеют с этим справляться на требуемом уровне. Но суть в том, что далеко не все люди умеют. Поэтому отсутствие культурных отсылок вообще не говорит о том, что текст написан ИИ.

Вода в тексте

Автор «Популярной науки» считает, что вода в тексте — признак машинного текста. Нет, это признак плохого автора. Возможно, автор — графоман. Или автор хороший, но перед ним поставили задачу выдать текст не менее определённого объёма, несмотря на то, что содержание текста меньшего объёма итак полностью раскрывает тему. А про обобщение и малое количество конкретики в тексте я уже написал в одном из предыдущих пунктов, поэтому повторяться не буду.

Сервисы по проверке текстов

Автор «Популярной науки» предлагает использовать специальные сервисы для проверки текстов на предмет того, сгенерирован ли текст нейронкой. И тут же пишет, что его знакомый загрузил собственноручно написанные тексты в такой сервис и в результате получил вердикт, что они с высокой вероятностью сгенерированы ИИ.

Я решил проверить свою недавнюю статью и загрузил её фрагмент в три таких сервиса, которые находятся в топе поисковой выдачи Google по запросу «проверить текст на ии». Первый сервис сделал вывод, что 14% загруженного текста сгенерировано нейросетью. Второй сервис вообще заявил, что мой текст полностью сгенерирован ИИ. Третий сервис заключил, что мой текст сгенерирован ИИ с вероятностью 13%. А я точно знаю, что мой текст полностью написан мной.

Я решил дополнительно изучить этот вопрос и выяснил, что не существует нейросетей и ИИ-детекторов, которые способны со стопроцентной точностью определить, сознан текст человеком или программой. И неясно, появятся ли такие детекторы в будущем.

Я также загрузил пару фрагментов из моей недавней статьи в ИИ-детектор Uncheck AI, который позиционирует себя как один из лучших детекторов. Один фрагмент моего текста этот сервис определил как 100% написанный человеком, а другой фрагмент из той же статьи как 100% сгенерированный нейросетью. В исследовании на VC.ru на примерах демонстрируется, что этот сервис может определить нейротекст как человеческий и наоборот.

Сервис Writer AI Content Detector оценил две мои недавние статьи как почти на 100% написанные человеком. Но когда я загрузил в этот ИИ-детектор текст, сгенерированный Алисой, то получил вердикт, что этот текст написан человеком с вероятностью 99%.

Испытывать другие ИИ-детекторы я уже не стал. Как следует из другой статьи на VC.ru, точность ИИ-детекторов в среднем составляет менее 50%. Судя по всему, ИИ-детекторы способны выявить с высокой точностью только совсем плохую генерацию.

Отсутствие ошибок в тексте

По мнению автора «Популярной науки», отсутствие ошибок в тексте является признаком того, что такой текст сгенерирован. Сразу уточню, что речь идёт исключительно про грамотность.

Этот якобы признак нейротекста удивил меня так же, как пункт про тире. Мне странно это говорить, но существуют люди, которые пишут грамотно. Особенно таких людей много среди тех, чья профессиональная деятельность связана с работой с текстами. Догадайтесь, почему.

Даже если автор пишет тексты не со 100% грамотностью, то, скорее всего, его грамотность всё равно сильно выше среднего в обществе. Поэтому простой обыватель несущественные ошибки не распознает. А если читает бегло, то просто не заметит.

Автор «Популярной науки» аргументирует этот пункт тем, что сам допускает ошибки, несмотря на серьёзный стаж в журналистике, и объясняет это тем, что при составлении текста он постоянно переписывается и пересобирается. И это правда, в работе с текстом это происходит постоянно. Но что мешает вычитать получившийся текст, выявить ошибки и исправить их, мне совершенно неясно. Я всегда вычитываю свои тексты перед публикацией. Также не забываем о том, что обычно в текстовых редакторах слова с ошибками подчёркиваются.

Ранее в этом материале я писал, что для проверки некоторых тезисов я прибегал к использованию нейросети Алиса. Не знаю, как другие нейронки, но Алиса таки допустила в своих текстах несколько пунктуационных ошибок. Благо, что они несерьёзные.

Нет индивидуальности

Автор «Популярной науки» преподносит свою мысль так, будто индивидуализация в тексте — как я понимаю, глубокая и с характером — всегда свойственна человеку. На самом деле это характерно для небольшого количества по-настоящему хороших авторов, чьи работы выделяются и запоминаются. И точно нехарактерно для большинства.

Что касается текстов от Алисы, я уже упоминал, что лексикон и стиль сгенерированных текстов отличаются в зависимости от составленного запроса: темы и перечисленных требований к генерации. И отличаются сильно, до неузнаваемости.

Последовательность и структуризация

Автор «Популярной науки» упомянул и об этом. Получается, это уже 11-й якобы признак нейротекста. Продолжаем.

Языковые модели действительно тяготеют к тому, чтобы сгенерированный текст был максимально структурированным. А знаете, кто ещё любит всё структурировать и упорядочивать? Я. И таких как я много. Как и тех людей, которые просто предпочитают быть последовательными.

Повторы

Это 12-й признак, про него пользователи писали в комментариях. Нейросети действительно могут повторять в сгенерированных текстах одно и то же много раз. Но если вы видите такой текст, то это в первую очередь признак недостаточно хорошей работы автора. И хотя руку нейросети в этом случае исключать не стоит, одного этого признака недостаточно, чтобы с уверенностью заключить, что текст создан ИИ.

Ранее в этом материале я уже писал про авторов, которые наполняют свои тексты водой, только чтобы сделать их объёмнее. Мало мыслей и фактов, а объём надо увеличить — просто добавь воды и разбавь повторениями ранее сказанного. Опять же, не забываем про графоманов.

В моих текстах тоже встречаются повторы, и нейросети здесь ни при чём. Нередко я сначала собираю сырой материал в виде фрагментов текста из разных статей с просторов интернета, а затем из собранной информации формирую уже свой текст. В собранных фрагментах часто присутствуют одни и те же факты, но в разных контекстах и с разными формулировками.

В итоге в моём тексте незаметно для меня самого один факт начинает повторяться в разных контекстах и описываться с разных точек зрения. Это становится заметно только в конце работы над статьёй, поэтому вместо переписывания существенной части текста я публикую его как есть. Знаю, что это нехорошо, и стараюсь подобного избегать.

Реальные признаки нейротекста

Существуют надёжные признаки текста, сгенерированного ИИ, и их совсем немного:

  • В тексте присутствуют явные буквальные повторы. Например, целые абзацы рассказывают об одном и том же. Однако в этом случае человеку не составит труда убрать лишнее;
  • Текст составлен в виде сплошного списка, хотя уместнее было бы написать в виде абзацев. Но нейросеть может легко преобразовать списки в абзацы, если её об этом попросить;
  • Некоторые слова и фразы совсем не соответствуют контексту или просто неуместны. Они как бы выпадают из общего содержания материала. В этом случае над сгенерированным текстом уже придётся поработать;
  • Текст содержит фрагменты, сформулированные неестественно. Это фразы и целые предложения, которые сильно непохожи на то, как большинство выражает свои мысли. Поэтому такой текст придётся переписать;
  • В тексте присутствуют выдуманные факты, упоминаются несуществующие люди, называются придуманные цитаты и так далее. Нейросети могут использовать ненадёжные источники и генерировать откровенные фейки, поэтому пользователю ИИ важно заниматься проверкой фактов, а не верить нейронке на слово.

Если совпали сразу несколько признаков, то текст с высокой вероятностью был сгенерирован. Если же текст просто странный, кажется бездушным и даже неестественным, то это может говорить о соответствующем мышлении конкретного человека, написавшего такой текст. Странных людей много, особенно в интернете. Поэтому не стоит путать нейротекст с просто плохим текстом.