Добавить в корзинуПозвонить
Найти в Дзене

✨ vLLM V0 до V1: Корректность перед исправлениями в RL

6 мая 2026 года была опубликована статья о переходе от vLLM V0 к V1, в которой акцентируется внимание на важности корректности в процессе обучения с подкреплением. vLLM V1 представляет собой значительное переписывание движка V0. Основной целью миграции было обеспечить соответствие логарифмических вероятностей, возвращаемых V1, тем, что ожидал тренер. В процессе миграции были исправлены четыре ключевых аспекта: обработка логарифмических вероятностей, специфические для V1 параметры времени выполнения, путь обновления весов и использование fp32 lm_head для финальной проекции. Проблемы, возникшие в начальном запуске V1, были связаны с несоответствием логарифмических вероятностей и вознаграждения по сравнению с эталоном V0. Это несоответствие проявилось в метриках, таких как clip rate, KL и энтропия. В ходе анализа были выделены три уровня возможных причин: семантическое несоответствие, несоответствие пути вывода и несоответствие цели обучения. Первой проблемой оказалось семантическое

✨ vLLM V0 до V1: Корректность перед исправлениями в RL

6 мая 2026 года была опубликована статья о переходе от vLLM V0 к V1, в которой акцентируется внимание на важности корректности в процессе обучения с подкреплением.

vLLM V1 представляет собой значительное переписывание движка V0. Основной целью миграции было обеспечить соответствие логарифмических вероятностей, возвращаемых V1, тем, что ожидал тренер.

В процессе миграции были исправлены четыре ключевых аспекта: обработка логарифмических вероятностей, специфические для V1 параметры времени выполнения, путь обновления весов и использование fp32 lm_head для финальной проекции.

Проблемы, возникшие в начальном запуске V1, были связаны с несоответствием логарифмических вероятностей и вознаграждения по сравнению с эталоном V0. Это несоответствие проявилось в метриках, таких как clip rate, KL и энтропия.

В ходе анализа были выделены три уровня возможных причин: семантическое несоответствие, несоответствие пути вывода и несоответствие цели обучения.

Первой проблемой оказалось семантическое несоответствие, когда vLLM V1 возвращал логарифмические вероятности из необработанных выходных данных модели, что не соответствовало ожиданиям тренера.

Также были внесены изменения в параметры времени выполнения, чтобы обеспечить соответствие между версиями V0 и V1, включая отключение кэширования префиксов и асинхронного планирования.

Кроме того, необходимо было синхронизировать обновления весов, чтобы соответствовать модели обновления в режиме онлайн, что также способствовало устранению несоответствий.

Источник

@aichangelogs@modelping@modelping