6 мая 2026 года была опубликована статья о переходе от vLLM V0 к V1, в которой акцентируется внимание на важности корректности в процессе обучения с подкреплением. vLLM V1 представляет собой значительное переписывание движка V0. Основной целью миграции было обеспечить соответствие логарифмических вероятностей, возвращаемых V1, тем, что ожидал тренер. В процессе миграции были исправлены четыре ключевых аспекта: обработка логарифмических вероятностей, специфические для V1 параметры времени выполнения, путь обновления весов и использование fp32 lm_head для финальной проекции. Проблемы, возникшие в начальном запуске V1, были связаны с несоответствием логарифмических вероятностей и вознаграждения по сравнению с эталоном V0. Это несоответствие проявилось в метриках, таких как clip rate, KL и энтропия. В ходе анализа были выделены три уровня возможных причин: семантическое несоответствие, несоответствие пути вывода и несоответствие цели обучения. Первой проблемой оказалось семантическое
✨ vLLM V0 до V1: Корректность перед исправлениями в RL
6 мая6 мая
1 мин