Современный интернет быстро заполняется текстами, сгенерированными искусственным интеллектом (ИИ). Как отличить текст человеческий от машинного?
Я собрал эти признаки, вручную. Получилось красивое число - 10. Вероятно, этих признаков гораздо больше, но именно эти мне режут глаз больше всего. Давайте по ним пройдемся, а если вы знаете какие-то еще, пожалуйста, пишите в комментариях! Так, вместе, соберем целую энциклопедию (а ИИ её потом прочтет и как нааачнет исправляться).
Богатство языка. У человека слова позаковыристее. Иногда странные. Часто пролезают какие то устаревшие, даже, которые не каждый подросток поймет.
Прошмыгнуть. Хлопнуть по рюмашке. Шкет. Все эти мелкие слова и выражения выдают человека. Причем, родившегося, вероятнее всего, еще во времена СССР.
Нейросеть же пытается обходиться более простым лексиконом, хотя к определенным сферам излишне тяготеет (об этом дальше).
Очень много длинных тире. К месту и не к месту.
Я сам люблю тире, как знак пунктуации. И очень часто ставлю не к месту, обычно, когда хочу подчеркнуть какую-то мысль. По правилам русского языка тире должно быть длинным. Но часто это забываешь, да и требует это сложного сочетания клавиш. Поэтому длинные тире ставят корректоры, а обычные журналисты и авторы - редко.
У нас на работе в Союзе писателей России двери для ИИ строго закрыты. Помогать собирать факты? Пожалуйста! Но книги пишут люди для людей.
Мои научно-популярные книги были написаны еще в до-ИИшную эпоху. И там много длинных тире. Как я вам уже сказал, люблю тире, но корректор мне их переправил все по правилам русского языка на длинные.
Но вот ИИ длинные тире просто обожает! Причем настолько, что вставляет их везде.
Сталин - тиран и диктатор. Забавно, как российский интернет наводнился текстами, где к Сталину в пару появились такие синонимы, как тиран и диктатор.
Окей, иногда либеральная общественность употребляет эти термины. Но даже она считает дурным тоном вставлять это где попало и, тем более, в заголовок.
Так что если видите заголовок такого плана: "Сталин любил шашлык. 10 фактов про диктатора" - 90%+, что текст сгенерирован ИИ.
Я не фанат Сталина, тем более не хочу оценивать деятельность Сталина в этой статье, но мне не придет в голову в исторических статьях про него ставить эти термины типа "тиран" и "диктатор".
Любопытно, что ни за одним из лидеров в истории человечества не закрепились эти два термина столь явно в "голове" у ИИ.
Кстати, еще чрезмерно часто у зарубежных нейросетей мелькают такие слова, как Тикток, Wi-Fi и Netflix. Особенно в случае метафор.
Вот фраза, сгенерированная ИИ:
«Я настолько одинок, что мой кот иногда подходит просто, чтобы проверить, ловит ли у меня Wi-Fi.»
Канцеляризмы и пустой офисный сленг. На самом деле, если вы почитаете пресс-релизы или послушаете выступления офисных спикеров на конференциях, то всего этого там будет тоже более чем. И было 10 лет назад тоже, без всякого ИИ.
Просто нейросети обучались по готовым текстам из интернета. А там корпоративных офисных текстов пруд пруди.
Вот примеры любимых слов ИИ (здесь уже я без списка обойтись не могу):
- принимая во внимание, в целях обеспечения, в соответствии с вышесказанным
- осуществляется, реализовывать, оказывать содействие, ведется работа по...
- по причине отсутствия, на протяжении мероприятия, по окончании, совместно с...
- в условиях нестабильности, с учетом текущей ситуации, наши усилия направлены на оптимизацию процессов
- в рамках текущего проекта, придерживаемся высоких стандартов, движемся в правильном направлении.
Еще нейросеть обожает так называемые «мертвые» существительные, типа - сотрудничество, вовлечение. Это абстрактные слова, образованные от глаголов и часто они не несут в себе особого смысла. Исчезает персонаж и динамика когда их употребляют.
Частые шаблонные конструкции и речевые клише, ИИ просто берёт из своей базы данных. И никак не развивает дальше.
Но, подчеркну - в офисах это и нужно, поэтому в офисном языке такое обожают.
Много общих фраз. ИИ трудно производить конкретику. Он же не жил, у него нет нашего опыта. Нет нашей сравнительной ассоциативной базы.
Поэтому в нейросетевых текстах часто сквозит чрезмерная формальность и обобщенность, отсутствие конкретики.
Списки. ИИ обожает структурировать всю информацию в виде списков. Вот то, что я вам пишу - он бы разбивал не на главы, а именно на списки. Просто фанатично к ним привязан.
Меткие ассоциации и отсылки. Точнее, их отсутствие. У ИИ будут максимально общие ассоциации, типа:
«Я иду на работу так долго, что вай-фай по дороге успевает подключиться и снова отвалиться несколько раз».
А у нас они более конкретные. Часто связаны с культурными отсылками, которые знакомы лишь определенной группе людей. Например:
«Я шел на работу так долго, что успел посмотреть все титры из "Иронии судьбы".
"Ирония судьбы" известна тем, что там титры идут почти 5 минут. Даже если этого не знать, все равно люди, родившиеся в СССР (и даже в 90-е) поймут эту гиперболу.
Водяные тексты. Традиция из английского. Помню, как когда я только осваивал журналистику, сильно удивлялся, что в английских статьях так много воды. Не нужных фраз, не добавляющих особого смысла материалу.
Мне потом объяснили, что традиция во многом связано с тем, что слова в английском языке намного короче в среднем. А объем для солидности нужен больше.
В русском, конечно, тоже иногда требуется объем для солидности. Например, как кандидатская диссертация - вынь да положь 150 страниц. А если у тебя получилось 100, но там есть уже и смысл, и доказательства? Рецепт, как в рекламе из 90-х - "Просто добавь воды".
Но английский в этом плане куда более "водянист". А так как главные нейросети сперва обучались на английском, да и в интернете таких текстов в тысячи раз больше - получаем соответствующий результат.
Сервисы. В интернете много специальных сервисов, проверяющих на вероятность того, писал ли текст ИИ.
Можете загружать туда тексты, в которых сомневаетесь, и смотреть на результат. В Дзене и российской блогосфере ситуация весьма печальная(. Я загрузил 10 случайно выбранных текстов, и шесть из них показали 80%+.
Конечно, и сервисы можно обмануть. И, наоборот, человек иногда пишет, как ИИ (возьмите тех же офисных сотрудников). Мой знакомый программист попробовал несколько раз проверить свой обычный текст, который он написал вручную. Сервисы выдали по его текстам 60-85% вероятности, что текст написан ИИ.
Нет ошибок. У меня они есть. Несмотря на 25 лет в журналистике.
Регулярно возникают и вот почему. Я, например, напишу фразу. Потом удалю, перепишу. Потом еще раз и еще раз. Прочту и...не замечу какую-нибудь стилистическую ошибку, нарушение согласованности и т п.
Иногда даже возникают все эти классические -тся и -ться. Не потому что я поленился перепроверить, а потому что фраза изменилась до неузнаваемости.
Я работаю в системе образования, у нас сейчас нейросети - это настоящее стихийное бедствие. Студенты пишут рефераты сами редко, всё идет с помощью ИИ. Проверяется это легко - просто начинаешь задавать конкретные вопросы по материалу. Даже если он прочел свой сгенерированный реферат, то запомнил из него мало что. И на конкретике посыпется. Потому что когда пишешь сам, то запоминаешь, а после машины в голове ничего не остается.
Если же студент знает материал, то не важно, использует он ИИ, или нет. Знание будет для него фундаментом.
Нет индивидуальности. Этот признак, конечно, не так легко вычленяется. И всё-таки, он очевиден если сравниваешь с человеческим хорошим материалом.
У ИИ-текста нет ни глубокой персонализации, ни индивидуального стиля. Из-за этого все тексты ИИ плюс минус похожи друг на друга.
Ну и, напоследок, не столько признак, сколько следствие всего вышесказанного:
ИИ-тексты идеально подходят для рекламных статей. Парадокс, но это - так!
Если вы возьмете шикарного журналиста с большим опытом и дадите ему задание написать статью по рекламному ТЗ, скажем "10 преимуществ стульев фирмы "Деревянко&Co" для размещения на даче под Вологдой", то он с высочайшей долей вероятности сделает это хуже, чем ИИ. И рекламодатель отправит ему текст на доработку.
А вот ИИ сделает рекламный текст ровно так, как хочет заказчик. Скучно, обезличено. С формальной "личной историей" в начале статьи. Зато перечислит все преимущества стульев досконально. Такой текст никто читать не захочет, но зато он понравится рекламодателю.
Почему ИИ пишет именно так
Чтобы это понять, надо просто знать базовый принцип работы текстовых моделей (так называемых LLM).
Они не думают! Вообще! Так как же они тогда пишут?
Объясню максимально на пальцах.
В базе такой модели - огромное количество слов и связей между словами. По принципу почти, как нейронные связи в мозге.
И каждое слово нейросеть подбирает исходя из вероятностей его появления для данного конкретного контекста.
А вероятности то связаны с ее накопленной базой. Если слово "Сталин" чаще в ее базе ассоциировалось с "диктатором", то вот вам и появление этого тандема.
P.S. Но ИИ-картинки я всё же люблю. С помощью нейросетей можно реконструировать даже древние вымершие формы животных.
Шерстистый носорог. Такой милаха обитал на территории современной России еще 15 тысяч лет назад. Ну прикольный же он получился вместе с нейросетью Sora? И не критикуйте, не переубедите!)
Главное описывать детально, как они выглядели и на фоне чего находятся. А то запихнет еще сферического коня в вакууме да посреди сочинского пляжа. Несостыковочка!
Хороший журналист обязан дать высказаться противоположной стороне. А именно - ИИ в нашем случае.
В оппоненты я выбрал лучшего. Загрузил свой текст в нейросеть "Клод". Она считается самой серьезной, аналитически подкованной и обстоятельной.
Попросил ИИ оценить мой текст. Ему текст очень не понравился, вот за что он меня раскритиковал:
Отсутствие четкой нумерации признаков. В заголовке обещано "10 признаков", но в тексте они не пронумерованы и не всегда четко выделены. Читателю сложно отследить, где заканчивается один признак и начинается другой.
(Вероятно, читатель не видит жирный шрифт в названии каждого признака? Или совсем не понимает, почему тут ни с 1того ни с сего жирный шрифт появился....ИИ требует нумерации!)
Непоследовательная структура. Некоторые признаки раскрыты подробно с примерами, другие упомянуты вскользь.
(Ага, как в любой нормальной компании друзей: про кого-то болтаем часами, а про кого-то — «ну да, Леонид в котельной работает, женился». Вот тебе и доказательство, что писал человек.)
Отсутствие практических советов. Вы отлично описываете признаки, но не даете читателю конкретных рекомендаций, как действовать, обнаружив ИИ-текст, или как самому избежать "ИИ-стиля" в письме.
(Интересно, что он от меня хочет? Посоветовать, чтобы читатель после каждого замечания такого текста бежал писать свой вердикт в комменты?)
Избыточные отступления. Личные истории про книги, диссертации и студентов интересны, но уводят от основной темы.
(ИИ невдомек, что именно это и делает текст человеческим, а не нейросетевым!)
Неравномерность тона. Местами академично, местами разговорно ("милаха", "прикольный"), что создает ощущение непоследовательности.
(См. предыдущий пункт)
Интересно вернуться к этой теме через год, как изменится ситуация. ИИ быстро прогрессировал последние годы. С другой стороны, сейчас нейросети уперлись в свой потолок. В ИИ уже загружены все тексты, что есть в интернете и книгах. Ему больше не на чем учиться. И он начинает потреблять свои же ИИ-шные тексты (и, как следствие, деградирует, что и подчеркивают современные эксперты).
У меня есть телеграм-канал Популярная наука. Здесь, в Дзене я публикую статьи, в телеграме я публикую другой контент - короткие интересные факты, шутки и мемы на научную тематику. Если пользуетесь телеграмом - присоединяйтесь, буду рад всех видеть!