20 подписчиков

📖 Почему нейросети помнят то, что должны были забыть

СегодняСегодня

2 мин

Разбор феномена сублиминального обучения Вы уже знаете, что если «дообучить» ИИ на новую задачу, то информация о старой все еще будет в "памяти" модели. На днях вышла статья на Хабр, которая хорошо раскрывает эту тему. Авторы докопались до того, почему модели действительно «помнят» скрытую информацию, даже когда мы её вроде бы удалили. 🧠 Вспомнить всё Когда мы дообучаем (fine-tune) нейросеть, чтобы адаптировать её к новой задаче, то это выглядит примерно так: 📌 есть модель, которая уже чему-то научилась → 📌 мы хотим «забыть» старое и научить новое → 📌 применяем регуляризацию, оптимизацию и уверены, что прошлое исчезло. Вреальности оказывается, что информация от прошлой задачи остаётся в структуре весов модели, даже если она не участвует прямо в новой оптимизационной задаче. 🧩 Опыт, как элемент памяти Оказывается, "забывание" это не просто удаление данных, а удаление следов в ландшафте весов модели, чего в реальности не происходит. 📌 Даже при агрессивной регуляризации сеть

Разбор феномена сублиминального обучения

Вы уже знаете, что если «дообучить» ИИ на новую задачу, то информация о старой все еще будет в "памяти" модели.

На днях вышла статья на Хабр, которая хорошо раскрывает эту тему. Авторы докопались до того, почему модели действительно «помнят» скрытую информацию, даже когда мы её вроде бы удалили.

🧠 Вспомнить всё

Когда мы дообучаем (fine-tune) нейросеть, чтобы адаптировать её к новой задаче, то это выглядит примерно так:

📌 есть модель, которая уже чему-то научилась →

📌 мы хотим «забыть» старое и научить новое →

📌 применяем регуляризацию, оптимизацию и уверены, что прошлое исчезло.

Вреальности оказывается, что информация от прошлой задачи остаётся в структуре весов модели, даже если она не участвует прямо в новой оптимизационной задаче.

🧩 Опыт, как элемент памяти

Оказывается, "забывание" это не просто удаление данных, а удаление следов в ландшафте весов модели, чего в реальности не происходит.

📌 Даже при агрессивной регуляризации сеть всё равно сохраняет прошлую информацию в скрытой структуре весов.

Это называется структурный импринтинг,

когда форма оптимального решения новой задачи строится на топологии, сформированной предыдущим обучением. Такая топология действует как «архитектурная память».

🔍 Эксперимент

Чтобы доказать этот эффект, авторы провели серию экспериментов на небольших сетях:

📌 Модель училась первой задаче А

📌 Затем переходила к задаче B с попыткой забыть А

📌 После этого третья нейросеть пыталась на основе выходов восстановить то, что модель уже должна была забыть

Результат:

🔹 структура прошлого знания сохранялась настолько, что третья модель могла восстановить секретную информацию с точностью до ~98 %, даже когда её не должно было быть видно.

🧠 К чему это всё?

👉 Если ваша модель обучалась на чувствительных данных (например, PII, BERT-подобные embedding-механизмы с секретными маркерами),

👉 а затем вы переобучили её на другую задачу,

то старые «печатные следы» всё равно остаются в весах. Это не баг оптимизатора, это свойство Loss Landscape: локации весов.

🟢 Итого, если вы работаете с моделями, где конфиденциальность или безопасность критична, просто переобучение недостаточно.

Нужно:

🔹 понимать свойства Loss Landscape,

🔹 проектировать безопасность данных на уровне архитектуры, а не тренировки,

🔹 смотреть на проблему privacy-by-design, а не hope-by-regularization.

📌 О том, как сделать так, чтобы модель все-таки "забыла" данные мы писали ранее тут и тут.

Stay secure and read SecureTechTalks 📚

#SecureTechTalks #ИИ #машиннообучение #безопасностьML #privacy #нейросети #информационнаябезопасность #MLsecurity #deepLearning