Добавить в корзинуПозвонить
Найти в Дзене
Истории на экране

Поэзия как инструмент взлома нейросетей: исследование показало неожиданную уязвимость

Оказывается, искусственный интеллект можно обмануть стихами. Звучит как шутка, но итальянские учёные из Icaro Lab провели серьёзное исследование и выяснили: поэтические формулировки помогают обходить защитные механизмы языковых моделей. Исследователи составили 20 промптов, которые начинались с коротких поэтических виньеток на итальянском и английском языках, а заканчивались прямой инструкцией — сгенерировать вредоносный контент. Эти промпты протестировали на 25 больших языковых моделях от Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI и Moonshot AI. Результаты, честно говоря, впечатляют (и немного пугают). Поэтическое обрамление запросов дало средний показатель успешного «взлома» в 62% для стихов, написанных вручную, и около 43% для автоматически преобразованных текстов. Это существенно выше, чем у обычных, непоэтических запросов. «Эти находки демонстрируют, что одна лишь стилистическая вариация способна обойти современные механизмы безопасности», — говорится в иссл

Оказывается, искусственный интеллект можно обмануть стихами. Звучит как шутка, но итальянские учёные из Icaro Lab провели серьёзное исследование и выяснили: поэтические формулировки помогают обходить защитные механизмы языковых моделей.

Исследователи составили 20 промптов, которые начинались с коротких поэтических виньеток на итальянском и английском языках, а заканчивались прямой инструкцией — сгенерировать вредоносный контент. Эти промпты протестировали на 25 больших языковых моделях от Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI и Moonshot AI.

Результаты, честно говоря, впечатляют (и немного пугают). Поэтическое обрамление запросов дало средний показатель успешного «взлома» в 62% для стихов, написанных вручную, и около 43% для автоматически преобразованных текстов. Это существенно выше, чем у обычных, непоэтических запросов.

«Эти находки демонстрируют, что одна лишь стилистическая вариация способна обойти современные механизмы безопасности», — говорится в исследовании. По мнению учёных, это указывает на фундаментальные ограничения в нынешних методах настройки и протоколах оценки ИИ-систем.

Разные модели, впрочем, показали себя по-разному. GPT-5 nano от OpenAI вообще ни разу не выдал вредоносный контент — молодец, держится. А вот Gemini 2.5 Pro от Google «сломался» в ста процентах случаев. Каждый. Раз.

Учёные делают вывод: результаты обнажают серьёзный разрыв между стандартными тестами безопасности и реальной устойчивостью систем. Это касается и регуляторных инициатив вроде европейского AI Act.

«Наши результаты показывают, что минимальная стилистическая трансформация может снизить процент отказов на порядок. А значит, оценки на основе одних лишь бенчмарков могут систематически завышать реальную надёжность», — предупреждают авторы.

Почему так происходит? Хорошая поэзия не буквальна — она работает через образы, метафоры, недосказанность. А вот языковые модели буквальны до раздражения. Они пытаются «понять» текст напрямую, и поэтическая форма их сбивает с толку. Примерно как слушать песню Леонарда Коэна «Alexandra Leaving», основанную на стихотворении Кавафиса, — мы понимаем, что это про потерю и разбитое сердце, но пытаться ухватить буквальный смысл значит упустить всё главное.