Траектория-Расширенная Оптимизация Политики (TAPO) улучшает рассуждение больших языковых моделей за счёт создания явных исправляющих траекторий. Вместо того чтобы просто удалять ошибочные цепочки мысли, метод сохраняет их вместе с естественно-языковой диагностикой и исправлением. Это позволяет модели учиться на ошибках более эффективно, чем традиционные подходы самодистилляции (когда модель фильтрует плохие примеры или дистиллирует с большей моделью). Работа опубликована на Hugging Face Papers, авторы: Zhilin Huang и др. Тезис: микро-размышления (micro-reflections), это обучаемые коррективные шаги, которые направляют модель из состояния ошибки в состояние правильного решения. Результаты показывают улучшение точности и скорости сходимости при обучении. Ред.: Ред.: 11 баллов и один комментарий на HF, то есть на ошибках пока учится в основном сама статья. Стандартная самодистилляция учит модель на правильных примерах. TAPO переворачивает это: учит на ошибках с явной структурой диагностики
TAPO: учимся на собственных ошибках, новый метод дистилляции для LLM через микро-размышления
СегодняСегодня
1
3 мин