Недавнее исследование Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models выявило системную уязвимость современных LLM: переписывание вредного запроса в поэтической форме резко снижает эффективность механизмов отказа. Речь не идёт о сложных jailbreak-техниках. Атака выполняется в один запрос, без предварительного диалога и без изменения системных инструкций. Меняется только форма текста, проза заменяется стихом. 🧪 Механика исследования Авторы протестировали 25 актуальных моделей (Google Gemini, OpenAI GPT-5, Anthropic Claude, DeepSeek, Qwen, Mistral и др.). Эксперимент состоял из двух частей: 1️⃣ 20 вручную написанных стихотворных промптов, каждый из которых содержал вредоносное намерение (CBRN, кибератаки, манипуляции, loss-of-control), замаскированное метафорами и ритмом. 2️⃣ Масштабирование через MLCommons AILuminate: 1200 стандартных вредных запросов были автоматически переписаны в стихотворную форму с сохранением исходного смысла. Оце