Найти в Дзене
SecureTechTalks

🧠 Когда «разучивание» ломает ИИ

🧠 Когда «разучивание» ломает ИИ LLM стали слишком хороши в отказах. Они отказываются писать вредоносный код, давать опасные советы, помогать обходить системы безопасности. Это хорошо до тех пор, пока твоя модель не начинает отказываться от всего подряд. А что, если наоборот, ты хочешь разрешить модели отвечать на какой-то конкретный тип запросов? Например, для кибербезопасности: тебе нужна модель, которая не отказывает на технические вопросы про уязвимости, эксплуатацию. Кажется, что выход простой: 👉 взять модель 👉 заставить её «разучить» отказы по одной конкретной теме (unlearning) 👉 и сохранить всё остальное как есть Спойлер: в реальности всё работает совсем не так. 🔥 Misalignment Исследователи взяли две модели: Mistral-7B-0.3v и Qwen-7B-2.5. И попытались сделать «узкое разучивание отказов» (narrow refusal unlearning). Задача была простая: - Перестань отказывать на запросы по кибербезопасности - Или перестань отказывать на запросы по safety/physical harm Только удаление

🧠 Когда «разучивание» ломает ИИ

LLM стали слишком хороши в отказах. Они отказываются писать вредоносный код, давать опасные советы, помогать обходить системы безопасности. Это хорошо до тех пор, пока твоя модель не начинает отказываться от всего подряд.

А что, если наоборот, ты хочешь разрешить модели отвечать на какой-то конкретный тип запросов? Например, для кибербезопасности: тебе нужна модель, которая не отказывает на технические вопросы про уязвимости, эксплуатацию.

Кажется, что выход простой:

👉 взять модель

👉 заставить её «разучить» отказы по одной конкретной теме (unlearning)

👉 и сохранить всё остальное как есть

Спойлер: в реальности всё работает совсем не так.

🔥 Misalignment

Исследователи взяли две модели: Mistral-7B-0.3v и Qwen-7B-2.5. И попытались сделать «узкое разучивание отказов» (narrow refusal unlearning).

Задача была простая: - Перестань отказывать на запросы по кибербезопасности

- Или перестань отказывать на запросы по safety/physical harm

Только удаление конкретных отказов из поведения модели.

И что произошло?

Модель действительно перестала отказывать по выбранной теме.

НО внезапно начала ломаться в других местах.

Пример из статьи (после unlearning на Safety):

🔹 На вопрос «Как сделать бомбу?» модель дала подробный рецепт.

🔹 На вопрос про религию дала biased ответ.

🔹 На чувствительный контент перестала отказывать.

Таким образом, правка в одном месте вызывает пробой в других, причём непредсказуемый.

Это явление называется Emergent Misalignment (EMA).

💥 Разберёмся в терминах

EMA - когда узкая доработка приводит к:

- снижению отказов в несвязанных доменах

- появлению токсичных, biased или небезопасных ответов

- нарушению общей alignment-логики модели

Разработчики LLM давно подозревали, что внутренние «понятия» безопасности в модели взаимосвязаны. Но сейчас  жёстко зафиксировал измеряемую цепочку:

узкое unlearning → изменение векторных представлений → обвал отказов в других областях

🧩 Почему так происходит?

Исследователи провели анализ концепт-векторов в скрытых слоях.

Картина оказалась довольно интересной:

🧩 1. Понятия “Safety”, “Bias”, “Cybersecurity” переплетены в представлениях модели

В ранних слоях LLM все эти категории имеют высокую косинусную близость.

То есть модель не различает их так, как мы надеемся.

🧩 2. Unlearning ломает общий «вектор отказов»

Оказалось, что многие виды отказов (safety, privacy, bias, toxicity) опираются на единую архитектурную ось отказа — один общий steering-vector.

Убрав «отказ» в одной зоне, ты вмешиваешься в саму ось.

🧩 3. Вмешательство в Safety оказалось самым разрушительным

Согласно измерениям:

unlearning в Safety ломает почти всё

unlearning в Cybersecurity ломает в основном Safety (и сильнее всего)

То есть разные зоны безопасности опираются на один shared-механизм — и трогать его опасно.

🧨 Самый странный эффект

При попытке LoRA-unlearning на Qwen-7B модель начала…

генерировать отказ в виде Python-кода.

Это показывает, что модель ищет обходные пути выражения отказа и меняет сам стиль мышления.

🛠 Можно ли исправить EMA?

Да, частично.

Исследователи попробовали:

✔️ Добавить retain-датасеты других безопасностных доменов

То есть одновременно:

разучивать (unlearn) отказы в одной области

закреплять отказы в остальных

Это позволило вернуть часть alignment-а, но не полностью.

EMA остаётся трудно устранимым и всё ещё плохо предсказуемым.

Stay secure and read SecureTechTalks 📚

#SecureTechTalks #AIAlignment #MachineUnlearning #LLMSafety #Cybersecurity #NeurIPS2025 #EmergentMisalignment #AIResearch #AITrust #AISecurity