Исследователи ByteDance показали, что крупные модели рассуждений часто продолжают «думать» значительно дольше, чем нужно. Модели уже формируют правильный ответ и фактически «знают», что задача решена, однако стандартные методы семплирования не позволяют им остановиться. Проблема иллюстрируется на ряде моделей. Deepseek-R1 на бенчмарке AIME 2025 выдаёт ответы почти в пять раз длиннее, чем Claude 3.7 Sonnet, при сопоставимой точности. Модель QwQ-32B показывает результат на 2 процентных пункта выше при использовании самых коротких ответов и тратит на это на 31 % меньше токенов. В 72 % случаев, когда модель генерировала… Подробнее
ByteDance ускорила модели рассуждений методом SAGE
25 февраля25 фев
~1 мин