🧠 Thinking Machines представила новый подход - On-Policy Distillation Исследователи из Thinking Machines Lab предложили метод, который может изменить то, как обучаются языковые модели. Он называется on-policy distillation - и учит ИИ не просто копировать, а думать и анализировать свои ошибки. Обычно «дистилляция» работает просто: большая модель-учитель показывает ответы, а маленькая модель-ученик запоминает их. Это похоже на заучивание по шпаргалке - быстро, но без понимания сути. В новом подходе всё иначе. Ученик сам решает задачи, а учитель оценивает и направляет - объясняет, где логика сбоит и как улучшить рассуждение. Таким образом, меньшая модель перенимает не только знания, но и способ мышления более крупной модели. Что показали результаты Эксперименты проводились на задачах математического и логического рассуждения, где важно не просто выдать правильный ответ, а выстроить цепочку шагов. Результаты впечатляют: Модель-ученик после обучения с on-policy distillation показала
🧠 Thinking Machines представила новый подход - On-Policy Distillation
27 октября 202527 окт 2025
10
1 мин