🧠 Когда «разучивание» ломает ИИ LLM стали слишком хороши в отказах. Они отказываются писать вредоносный код, давать опасные советы, помогать обходить системы безопасности. Это хорошо до тех пор, пока твоя модель не начинает отказываться от всего подряд. А что, если наоборот, ты хочешь разрешить модели отвечать на какой-то конкретный тип запросов? Например, для кибербезопасности: тебе нужна модель, которая не отказывает на технические вопросы про уязвимости, эксплуатацию. Кажется, что выход простой: 👉 взять модель 👉 заставить её «разучить» отказы по одной конкретной теме (unlearning) 👉 и сохранить всё остальное как есть Спойлер: в реальности всё работает совсем не так. 🔥 Misalignment Исследователи взяли две модели: Mistral-7B-0.3v и Qwen-7B-2.5. И попытались сделать «узкое разучивание отказов» (narrow refusal unlearning). Задача была простая: - Перестань отказывать на запросы по кибербезопасности - Или перестань отказывать на запросы по safety/physical harm Только удаление