В команде Alibaba представили D‑OPSD — метод, который позволяет дообучать уже дистиллированные модели без потери качества. Это решение актуально для случаев, когда модель нужно регулярно обновлять на новых данных, но при этом важно не допустить деградации её предсказаний. В основе подхода — обучение «ученика» на данных, которые генерирует текущая версия самой себя. Такой on-policy режим позволяет модели не терять связь с уже освоенными знаниями и корректно интегрировать новые. В отличие от классической дистилляции, где модель-ученик просто копирует поведение учителя, D‑OPSD делает возможным поэтапное дообучение: модель шаг за шагом совершенствуется, не откатываясь назад по качеству. Ещё одна важная особенность — стабилизация через самосогласованность предсказаний. Это значит, что модель сверяет свои новые ответы с предыдущими версиями, чтобы избежать резких изменений в поведении. Такой механизм особенно полезен при долгосрочном обучении, когда даже небольшие ошибки могут накапливаться
D‑OPSD: метод для непрерывного обучения дистиллированных моделей от Alibaba
12 мая12 мая
2
1 мин