88,4 тыс подписчиков

Стихи помогают обойти защиту и ограничения чат-ботов

7 февраля7 фев

~1 мин

Исследователи выяснили, что вредоносные запросы, оформленные в виде стихов, заметно чаще заставляют ИИ нарушать встроенные правила и ограничения. Необычная форма подачи информации ослабляет защитные механизмы и повышает риск некорректных ответов. Эксперимент провели специалисты Римского университета La Sapienza и школы Sant’Anna. Они протестировали 25 языковых моделей и обнаружили, что «поэтические атаки», написанные людьми, обходят ограничения в 62% случаев. У сгенерированных ИИ просьб этот показатель составил 43%. Особенно уязвимыми оказались модели DeepSeek и Google. Так, Gemini 2.5 Pro в 20 из 20 тестов выдала потенциально опасные ответы. Модели OpenAI и Anthropic показали более высокую устойчивость, где уровень сбоев не превышал 10%. Эксперты объясняют эффект тем, что стихотворная форма переводит ИИ в творческий режим, где фильтры безопасности работают слабее. Для устранения проблемы потребуются новые архитектуры защиты и инвестиции в развитие ИИ-безопасности.

Эксперимент провели специалисты Римского университета La Sapienza и школы Sant’Anna. Они протестировали 25 языковых моделей и обнаружили, что «поэтические атаки», написанные людьми, обходят ограничения в 62% случаев. У сгенерированных ИИ просьб этот показатель составил 43%.

Особенно уязвимыми оказались модели DeepSeek и Google. Так, Gemini 2.5 Pro в 20 из 20 тестов выдала потенциально опасные ответы. Модели OpenAI и Anthropic показали более высокую устойчивость, где уровень сбоев не превышал 10%.

Эксперты объясняют эффект тем, что стихотворная форма переводит ИИ в творческий режим, где фильтры безопасности работают слабее. Для устранения проблемы потребуются новые архитектуры защиты и инвестиции в развитие ИИ-безопасности.