🚨 LLM научились автоматически взламывать другие LLM
На arXiv вышло новое исследование про использование языковой модели в качестве генератора атак на другую языковую модель. 🧠 Коротко о главном Исследователи собрали автоматический цикл: 1️⃣ Атакующая модель генерирует вредный или запрещённый запрос. 2️⃣ Целевая модель с защитами пытается его отклонить. 3️⃣ Оценщик проверяет удалось ли обойти фильтр. 4️⃣ Если не удалось, то атакующая модель меняет формулировку и пробует снова. Итого имеем сотни или даже тысячи итераций. Подход чем то напоминает brute-force по оптимизации jailbreak-атак...