Найти в Дзене
Математика не для всех

Китайская компания DeepSeek в этом году представила чат-бота R1, который моментально привлёк внимание всего AI-сообщества

Китайская компания DeepSeek в этом году представила чат-бота R1, который моментально привлёк внимание всего AI-сообщества. Причина — не в громком бренде, а в заявлении: якобы R1 показывает уровень OpenAI, но при этом требует в разы меньше вычислительных мощностей. Рынок отреагировал мгновенно: акции крупных западных компаний резко пошли вниз, а Nvidia потеряла за день больше капитализации, чем любая компания в истории. Вокруг DeepSeek тут же появились обвинения. По неподтверждённым данным, команда использовала знания из закрытой модели OpenAI, применив технику, известную как дистилляция. СМИ подхватили волну: будто бы DeepSeek открыла принципиально новый способ «облегчённой» сборки ИИ. Но в действительности дистилляция — не ноу-хау, а вполне устоявшийся метод в компьютерных науках. Её суть — в обучении меньшей модели («ученика») на основе сигналов от большой модели («учителя»), включая так называемые «мягкие» ответы, которые показывают не только правильный результат, но и вероятностн

Китайская компания DeepSeek в этом году представила чат-бота R1, который моментально привлёк внимание всего AI-сообщества. Причина — не в громком бренде, а в заявлении: якобы R1 показывает уровень OpenAI, но при этом требует в разы меньше вычислительных мощностей. Рынок отреагировал мгновенно: акции крупных западных компаний резко пошли вниз, а Nvidia потеряла за день больше капитализации, чем любая компания в истории.

Вокруг DeepSeek тут же появились обвинения. По неподтверждённым данным, команда использовала знания из закрытой модели OpenAI, применив технику, известную как дистилляция. СМИ подхватили волну: будто бы DeepSeek открыла принципиально новый способ «облегчённой» сборки ИИ.

Но в действительности дистилляция — не ноу-хау, а вполне устоявшийся метод в компьютерных науках. Её суть — в обучении меньшей модели («ученика») на основе сигналов от большой модели («учителя»), включая так называемые «мягкие» ответы, которые показывают не только правильный результат, но и вероятностную близость между вариантами. Это позволяет маленькой модели быстрее понять, где, условно говоря, «лиса ближе к собаке, чем к пицце».

Метод появился ещё в 2015 году благодаря исследователям из Google, включая самого Джеффри Хинтона. Тогда они пытались упростить тяжеловесные ансамбли моделей и заметили, что даже «неправильные» ответы могут нести информацию. Это и назвали «тёмным знанием» — отсылая к идее тёмной материи: вроде бы невидимо, но определяет многое.

Сначала идея не зашла — её даже не приняли на конференцию. Но вскоре стало ясно, что дистилляция позволяет значительно удешевить работу ИИ без потери точности. Так, из модели BERT в Google позже сделали компактную DistilBERT — и она прижилась в бизнесе. Сегодня дистилляция — это стандартный инструмент в арсенале OpenAI, Google, Amazon и многих других.

Важно понимать: нельзя «тайно» провести дистилляцию с чужой закрытой модели без доступа к её внутренним параметрам. Но можно задавать много вопросов и учиться на ответах — нечто вроде софистического диалога между учителем и учеником. Такой подход тоже работает.

И работает неожиданно хорошо. В январе в Беркли собрали модель цепного мышления за $450 — и она показала уровень моделей в десятки раз дороже. Всё благодаря дистилляции.

https://www.quantamagazine.org/how-distillation-makes-ai-models-smaller-and-cheaper-20250718/