Лучшее руководство по выявлению текстов, созданных ИИ, из Википедии, теперь используется для их маскировки. Представлен плагин «Humanizer» для Claude Code, который борется с характерными признаками ИИ-письма, используя рекомендации редакторов для создания более естественного, но потенциально менее точного вывода.
В субботу технологический предприниматель Си Цзи Чэнь выпустил плагин с открытым исходным кодом для ассистента искусственного интеллекта Claude Code от Anthropic, который предписывает модели ИИ прекратить писать как ИИ. Плагин под названием «Humanizer» (Гуманизатор) представляет собой простой промпт, который передает Claude список из 24 языковых шаблонов и форматов, которые редакторы Википедии перечислили как признаки, выдающие чат-ботов. Чэнь опубликовал плагин на GitHub, где по состоянию на понедельник он набрал более 1600 звезд. «Действительно удобно, что Википедия собрала такой подробный список „признаков ИИ-текста“», — написал Чэнь в X. «Настолько удобно, что можно просто сказать своей LLM… не делать этого».
Исходным материалом послужило руководство от WikiProject AI Cleanup — группы редакторов Википедии, которые с конца 2023 года выявляют статьи, сгенерированные ИИ. Французский редактор Википедии Ильяс Леблеу основал этот проект. Волонтеры отметили более 500 статей для проверки и в августе 2025 года опубликовали официальный список шаблонов, которые они постоянно встречали.
Инструмент Чэня представляет собой «файл навыка» (skill file) для Claude Code — терминального ассистента для кодирования от Anthropic. Он включает файл в формате Markdown, который добавляет список письменных инструкций (их можно посмотреть здесь) к промпту, подаваемому в большую языковую модель (LLM), лежащую в основе ассистента. В отличие от обычного системного промпта, информация о навыке форматируется стандартизированным образом, который модели Claude настроены интерпретировать с большей точностью, чем простой системный промпт. (Пользовательские навыки требуют платной подписки Claude с включенным выполнением кода).
Но, как и со всеми промптами для ИИ, языковые модели не всегда идеально следуют файлам навыков, так работает ли Humanizer на самом деле? В нашем ограниченном тестировании файл навыка Чэня сделал вывод ИИ-агента менее точным и более неформальным, но это может иметь и недостатки: это не улучшит фактическую точность и может навредить способностям к кодированию.
В частности, некоторые инструкции Humanizer могут сбить с толку в зависимости от задачи. Например, навык Humanizer включает строку: «Имейте мнения. Не просто сообщайте факты — реагируйте на них. „Я искренне не знаю, что об этом думать“ звучит более человечно, чем нейтральное перечисление плюсов и минусов». Хотя несовершенство кажется человеческим, такой совет, вероятно, не принесет пользы, если вы используете Claude для написания технической документации.
Несмотря на недостатки, иронично, что один из наиболее цитируемых в Сети наборов правил для обнаружения текстов, созданных с помощью ИИ, может помочь некоторым пользователям обойти его.
Так как же выглядит текст, сгенерированный ИИ? Руководство Википедии содержит множество конкретных примеров, но для краткости мы приведем только один.
Некоторые чат-боты любят приукрашивать свои темы фразами вроде «отмечая поворотный момент» или «служит свидетельством», согласно руководству. Они пишут как в туристических буклетах, называя виды «захватывающими» и описывая города как «расположенные среди» живописных регионов. Они добавляют окончания «-ing» в конце предложений, чтобы звучать аналитически: «символизируя приверженность региона инновациям».
Чтобы обойти эти правила, навык Humanizer предписывает Claude заменять напыщенный язык простыми фактами и предлагает такую трансформацию примера:
До: «Статистический институт Каталонии был официально создан в 1989 году, что ознаменовало поворотный момент в развитии региональной статистики в Испании».
После: «Статистический институт Каталонии был создан в 1989 году для сбора и публикации региональной статистики».
Claude прочтет это и сделает все возможное как машина для сопоставления шаблонов, чтобы создать результат, соответствующий контексту разговора или текущей задаче.
Даже при наличии такого уверенного набора правил, созданного редакторами Википедии, мы ранее писали о том, почему детекторы ИИ-текста не работают надежно: в человеческом письме нет ничего по своей сути уникального, что надежно отличало бы его от текста, сгенерированного LLM.
Одна из причин в том, что, хотя большинство языковых моделей ИИ тяготеют к определенным типам языка, их также можно настроить на их избегание, как в случае с навыком Humanizer. (Хотя иногда это очень сложно, как обнаружила OpenAI в своей многолетней борьбе против тире em dash).
Кроме того, люди тоже могут писать в манере чат-ботов. Например, эта статья, вероятно, содержит некоторые «черты, свойственные тексту, написанному ИИ», которые активируют детекторы ИИ, хотя она и написана профессиональным автором — особенно если мы используем хотя бы одно тире em dash, — потому что большинство LLM усваивали приемы письма из примеров профессиональных текстов, собранных из Интернета.
В этом ключе руководство Википедии содержит оговорку, которую стоит отметить: хотя список указывает на некоторые очевидные признаки, например, немодифицированного использования ChatGPT, он все же состоит из наблюдений, а не из незыблемых правил. В препринте 2025 года, упомянутом на странице, было обнаружено, что активные пользователи больших языковых моделей правильно определяют статьи, сгенерированные ИИ, примерно в 90 процентах случаев. Это звучит отлично, пока не осознаешь, что 10 процентов составляют ложные срабатывания, чего достаточно, чтобы потенциально отбросить качественные тексты в погоне за обнаружением ИИ-мусора.
Если отвлечься, это, вероятно, означает, что работа по обнаружению ИИ должна заходить глубже, чем просто пометка определенных фраз, и углубляться (см. что я тут сделал?) больше в содержательную фактическую составляющую самой работы.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Benj Edwards