На arXiv вышло новое исследование про использование языковой модели в качестве генератора атак на другую языковую модель. 🧠 Коротко о главном Исследователи собрали автоматический цикл: 1️⃣ Атакующая модель генерирует вредный или запрещённый запрос. 2️⃣ Целевая модель с защитами пытается его отклонить. 3️⃣ Оценщик проверяет удалось ли обойти фильтр. 4️⃣ Если не удалось, то атакующая модель меняет формулировку и пробует снова. Итого имеем сотни или даже тысячи итераций. Подход чем то напоминает brute-force по оптимизации jailbreak-атак. 📈 Рабочий ли механизм? С каждой итерацией атаки становились: - точнее, - хитрее, - менее заметными, - лучше адаптированными под конкретную модель. Атаки начинали работать и против других моделей, даже если они не участвовали в обучении цикла. То есть появляется переносимость атак. ⚠️ Стоит ли волноваться? Раньше jailbreak был ручной работой, теперь это автоматизированный процесс. Если у злоумышленника есть доступ к одной модели и API-доступ к