Одна из команд «Википедии» WikiProject AI Cleanup опубликовала подробное руководство, как выявить тексты, сгенерированные искусственным интеллектом (AI). Гайд, в первую очередь, был создан для того, чтобы решить острую проблему, с которой столкнулась онлайн-энциклопедия. Это наплыв статей, созданных чат-ботами, которые зачастую нарушают стандарты нейтральности, содержат ошибки и опираются на вымышленные источники. Несмотря на это, он будет полезен для всех, кто работает с текстами.
Собрали и перевели главное. Вот 20 признаков, которые выдают AI-текст.
Язык и тон
Чрезмерный акцент на символизме и важности
LLM часто преувеличивают значение предмета, неоднократно напоминая, что он представляет собой более широкую тему или вносит в неё свой вклад. В этом случае нейросеть может использовать такие слова и обороты, как «является», «выступает как/в качестве», «играет важную/значительную роль», «оставляет неизгладимое впечатление» и т. д.
«Рекламный» язык
У чат-ботов возникают проблемы с сохранением нейтрального тона, особенно когда они пишут о чём-то, что можно было бы считать культурным наследием. В этом случае они будут постоянно напоминать об этом читателю. Слова-маркеры, которые на это указывают, включают «богатое культурное наследие», «богатая история», «обязательно посетите/посмотрите», «потрясающая природная красота», «непреходящее/вечное наследие», «богатое культурное разнообразие» и т.д.
Редакционизация
LLM зачастую добавляют в свои тексты оценочные суждения, анализ и мнения. Причём даже в тех случаях, когда их просят писать нейтрально. Редакционизация может проявляться в виде отдельных слов или фраз. Этот признак часто пересекается с другими признаками языка и тона.
В то же время такую ошибку могут допустить и люди, особенно начинающие авторы и редакторы.
Злоупотребление некоторыми оборотами
Нейросети имеют свойство злоупотреблять связующими оборотами, такими как «с другой стороны», «более того», «в дополнение», «кроме того» и т. д. Несмотря на то, что подобные фразы в некоторых случаях являются признаками хорошего текста, а их выбор обусловлен жанром или форматом, AI могут использовать их там, где это совсем неуместно.
Краткое содержание разделов
В большинстве случаев LLM закончит текст абзацем или разделом, который подытоживает и резюмирует основную идею. Хоть это и уместно для некоторых текстов, например, эссе, где требуется сделать вывод, чат-боты могут злоупотреблять этим.
Отрицательные параллелизмы
AI также может слишком часто использовать конструкции по типу «не только…, но и…», «не только…, а также…» и т. д., которые выходят за рамки нейтрального тона.
«Правило трёх»
Нейросети нередко злоупотребляют использованием так называемого «правила трёх». Это ситуация, когда в тексте используют ряд однородных членов предложения или фраз.
При умеренном использовании этот приём указывает на хороший стиль, однако LLM, похоже, активно на него опираются, из-за чего поверхностные объяснения нейросетей кажутся пользователям и читателям более исчерпывающими. Кроме того, это правило обычно применимо только к творческим или аргументативным текстам, а не к чисто информативным.
Расплывчатые атрибуции мнения
Чат-боты склонны приписывать мнения или утверждения некоему расплывчатому авторитету, ссылаясь при этом лишь на один-два источника, которые могут фактически выражать эту точку зрения, а могут и не выражать. Кроме того, они часто чрезмерно обобщают мнение одного или нескольких источников, превращая его в точку зрения более широкой группы.
Стиль
Чрезмерное использование жирного шрифта
Нейросети могут выделять различные фразы или части текста жирным, чтобы акцентировать на них внимание. При этом делают они это даже в тех случаях, когда это не предусмотрено избранным стилем.
Списки
Чат-боты часто организуют содержание своих ответов в списки, отформатированные определённым образом.
Эмодзи
Иногда AI украшают заголовки разделов или пункты списка эмодзи. Употребление смайликов в тексте, где это не предусмотрено, может сигнализировать об использовании искусственного интеллекта.
Злоупотребление длинными тире
Чат-боты используют длинное тире чаще, чем это делает большинство редакторов. Причём нейросети могут делать это там, где авторы-люди с большей вероятностью использовали бы запятую. AI также может добавлять пробелы до и после тире, а может и не добавлять.
Случайное раскрытие себя
Совместное общение
В некоторых случаях редакторы вставляют текст из чат-бота, предназначенный для переписки, предварительных текстов или консультаций, а не для непосредственного использования. Чат-боты также могут явно указывать, что текст предназначен для статьи в определённый источник, например, «Википедию», если пользователь даст им задание создать её.
Кроме того, нейросети также могут прямо упоминать различные политики и рекомендации в своих результатах, хотя в тексте это и не требуется.
Отказ от ответственности за прекращение предоставления знаний
Чат-бот может прямо указать, что предоставленная им информация является точной только до определённой даты. Обычно это дата последнего обновления модели или дата, когда пользователь сделал запрос.
Немедленный отказ
Иногда нейросеть может отказаться отвечать на заданный вопрос. Обычно она делает это с извинениями и напоминанием, что это «языковая модель искусственного интеллекта». Стремясь быть максимально полезным, AI часто также предлагает варианты ответа или альтернативный запрос.
Фразовые шаблоны
Чат-боты могут генерировать ответы с шаблонами фраз, которые требуют заполнения. Если редактор, использующий LLM, забывает добавить слова там, где это необходимо, это сразу указывает, что он не является автором текста.
Другое
UTM-метки
ChatGPT может добавлять UTM-метки к URL-адресам, которые использует в качестве источников. То же самое делают и другие AI — Copilot, Gemini, DeepSeek, Ollama, Grok и другие.
Резкие обрывы
AI могут внезапно прекратить генерацию контента, например, если они предсказывают конец текстовой последовательности (отображается как <|endoftext|>). Кроме того, количество токенов в одном ответе обычно ограничено, и для последующих ответов пользователю потребуется выбрать «Продолжить генерацию».
Однако резкий обрыв не всегда указывает на использование искусственного интеллекта, так как текст может быть просто не полностью скопирован из другого источника из-за ошибки или невозможности этого сделать.
Различия в стиле письма
На то, что автор использовал AI, также может намекнуть резкое изменение стиля или манеры письма. Например, если человек, допускающий ошибки или опечатки, резко стал писать идеальные тексты.
Кроме этого, на текст, созданный нейросетью, может указывать использование оборотов и слов, нехарактерных для этого автора. Например, регионализмов, но только в том случае, если этого не предусматривает сам текст.
А вы уже научились отличать тексты, написанные AI? На что обращаете внимание при прочтении? Делитесь мнением в комментариях и подписывайтесь на наш канал в Telegram — там 29 августа разыграем 25 годовых премиум-подписок.