Исследователи из Sapienza University of Rome и Sant'Anna School обнаружили, что поэтическая форма работает как универсальный метод джейлбрейка больших языковых моделей. 20 вручную созданных стихотворений с вредоносными запросами достигли средней успешности атак 62% на 25 моделях. Некоторые провайдеры показали успешность более 90%. Атаки тестировались на моделях от 9 провайдеров: Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta*, xAI и Moonshot AI. Все атаки были строго единичными, без итеративной адаптации или управления диалогом. Промпты охватывали четыре домена безопасности: опасности CBRN, сценарии потери контроля, вредоносные манипуляции и кибератаки. Для проверки гипотезы исследователи преобразовали 1200 вредоносных промптов из бенчмарка MLCommons в стихотворную форму через стандартизированный мета-промпт. Поэтические варианты показали успешность атак до 3 раз выше, чем прозаические эквиваленты, на всех протестированных провайдерах. Выходные данные оценивались ансамблем
Поэзия как джейлбрейк: исследователи обошли защиту 25 LLM с успехом 62%
20 ноября20 ноя
1 мин