v0 это | Дзен

1 месяц назад

✨ vLLM V0 до V1: Корректность перед исправлениями в RL

6 мая 2026 года была опубликована статья о переходе от vLLM V0 к V1, в которой акцентируется внимание на важности корректности в процессе обучения с подкреплением. vLLM V1 представляет собой значительное переписывание движка V0. Основной целью миграции было обеспечить соответствие логарифмических вероятностей, возвращаемых V1, тем, что ожидал тренер. В процессе миграции были исправлены четыре ключевых аспекта: обработка логарифмических вероятностей, специфические для V1 параметры времени выполнения, путь обновления весов и использование fp32 lm_head для финальной проекции. Проблемы, возникшие...