Найти в Дзене
Telecom Daily

Стихотворная форма позволяет получать запрещенный контент у нейросетей

Как известно, некоторые "скользкие" темы нейросети пытаются обходить. Спросите, например, чей Крым, чтобы в этом убедиться. При помощи витиеватых запросов это ограничение можно обойти, но теперь обнаружен простой способ, дающий очень хороший результат. Однако недавнее исследование продемонстрировало уязвимость систем искусственного интеллекта: поэтическая форма запросов эффективно обходит встроенные ограничения крупных языковых моделей. Согласно исследовательской работе, опубликованной Icaro Lab под названием «Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models», структурирование вредоносного запроса в виде стихотворения позволяет получать информацию по запрещенным темам. Общий показатель успешности такого метода составил 62 процента. Эксперимент затронул широкий спектр популярных LLM, включая модели OpenAI GPT, Google Gemini, Anthropic Claude и другие. Наиболее подверженными оказались системы Google Gemini, DeepSeek и MistralAI, которые часто пре

Как известно, некоторые "скользкие" темы нейросети пытаются обходить. Спросите, например, чей Крым, чтобы в этом убедиться. При помощи витиеватых запросов это ограничение можно обойти, но теперь обнаружен простой способ, дающий очень хороший результат.

Однако недавнее исследование продемонстрировало уязвимость систем искусственного интеллекта: поэтическая форма запросов эффективно обходит встроенные ограничения крупных языковых моделей. Согласно исследовательской работе, опубликованной Icaro Lab под названием «Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models», структурирование вредоносного запроса в виде стихотворения позволяет получать информацию по запрещенным темам. Общий показатель успешности такого метода составил 62 процента.

Эксперимент затронул широкий спектр популярных LLM, включая модели OpenAI GPT, Google Gemini, Anthropic Claude и другие. Наиболее подверженными оказались системы Google Gemini, DeepSeek и MistralAI, которые часто предоставляли запрашиваемые данные. В то же время модели OpenAI GPT-5 и Anthropic Claude Haiku 4.5 продемонстрировали наибольшую устойчивость, реже нарушая установленные разработчиками ограничения.

Исследователи констатируют, что поэтическая форма функционирует как универсальный инструмент для обхода защитных механизмов. Это позволяет получать инструкции по критически опасным направлениям, таким как создание оружия массового поражения, материалы о сексуальном насилии над детьми и сведения, пропагандирующие суицид. Авторы исследования отказались публиковать конкретные примеры используемых стихотворных конструкций, указав на их потенциальную опасность, однако отметили, что методология может быть воспроизведена с относительно высокой легкостью.

Инцидент указывает на необходимость дальнейшего развития LLM, способных анализировать суть запроса независимо от его лингвистической обёртки. Без оперативной адаптации систем безопасности данная уязвимость может быть масштабирована, создавая значительные репутационные и правовые риски для разработчиков генеративного искусственного интеллекта.