14 подписчиков
💡 Knowledge Distillation: Угрозы и уязвимости
🔍 Что такое Knowledge Distillation?
Knowledge Distillation (KD) — популярная техника для сжатия моделей машинного обучения, где более лёгкая модель (ученик) обучается под руководством более мощной модели (учителя). Такой метод активно используется в обработке естественного языка (NLP), например в задачах классификация текста.
⚠️ В чём угроза?
В последнее время KD стал популярным инструментом для снижения требований к вычислительным ресурсам и сжатия больших языковых моделей (LLM). Однако использование предварительно обученных моделей от третьих лиц может нести в себе скрытые угрозы. Злоумышленники могут внедрить "закладки" в модели-учителя, которые будут переданы модели-ученику.
🎯 Как работают атаки?
Злоумышленник создает качественную модель-учителя с "закладками" и размещает их на общедоступных платформах, таких как GitHub. Пользователи, загружающие модели и использующие их для KD, рискуют передать вредоносные функции в свои модели-ученики, даже если используют чистые наборы данных для обучения.
🔐 Заключение
Использование Knowledge Distillation, несмотря на его эффективность, требует осторожного подхода, особенно при выборе моделей-учителей из ненадежных источников. Необходимо учитывать возможные угрозы и предпринимать дополнительные меры для проверки моделей перед их использованием.
#Кибербезопасность #MachineLearning #KnowledgeDistillation #SecureTechTalks
1 минута
21 августа 2024