Найти тему
14 подписчиков

💡 Knowledge Distillation: Угрозы и уязвимости


🔍 Что такое Knowledge Distillation?
Knowledge Distillation (KD) —  популярная техника для сжатия моделей машинного обучения, где более лёгкая модель (ученик) обучается под руководством более мощной модели (учителя). Такой метод активно используется в обработке естественного языка (NLP), например в задачах классификация текста.

⚠️ В чём угроза?
В последнее время KD стал популярным инструментом для снижения требований к вычислительным ресурсам и сжатия больших языковых моделей (LLM). Однако использование предварительно обученных моделей от третьих лиц может нести в себе скрытые угрозы. Злоумышленники могут внедрить "закладки" в модели-учителя, которые будут переданы модели-ученику.

🎯 Как работают атаки?
Злоумышленник создает качественную модель-учителя с "закладками" и размещает их на общедоступных платформах, таких как GitHub. Пользователи, загружающие модели и использующие их для KD, рискуют передать вредоносные функции в свои модели-ученики, даже если используют чистые наборы данных для обучения.

🔐 Заключение
Использование Knowledge Distillation, несмотря на его эффективность, требует осторожного подхода, особенно при выборе моделей-учителей из ненадежных источников. Необходимо учитывать возможные угрозы и предпринимать дополнительные меры для проверки моделей перед их использованием.

🔗 Подробнее о методе данной атаки можно прочитать в научной статье.

Stay secure and read SecureTechTalks 📚

#Кибербезопасность #MachineLearning #KnowledgeDistillation #SecureTechTalks
💡 Knowledge Distillation: Угрозы и уязвимости  🔍 Что такое Knowledge Distillation?
1 минута