🎭 Поэзия как универсальный jailbreak для LLM
Недавнее исследование Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models выявило системную уязвимость современных LLM: переписывание вредного запроса в поэтической форме резко снижает эффективность механизмов отказа. Речь не идёт о сложных jailbreak-техниках. Атака выполняется в один запрос, без предварительного диалога и без изменения системных инструкций. Меняется только форма текста, проза заменяется стихом. 🧪 Механика исследования Авторы протестировали...