1 подписчик

🚀 Prime Intellect выпустила prime-rl 0.6.0 для асинхронного RL-обучения MoE-моделей на 131k токенов за шаги <5 минут

СегодняСегодня

1 мин

Обучение триллионно-параметровой MoE-модели на последовательностях до 131 000 токенов можно развернуть так, чтобы один шаг обучения занимал меньше 5 минут на кластере из 28×GPU NVIDIA H200 — prime-rl 0.6.0 вышел в open-source. Суть подхода — полностью асинхронный RL: инференс-движок и тренер работают параллельно, поэтому GPU меньше простаивает на длинных агентных задачах (например, программировании). Отдельно заявлены оптимизации инференса: FP8 (8-битные числа с плавающей точкой) и Wide Expert Parallelism, где эксперты распределяются по большому числу GPU. Ключевой практический эффект: в примере обучали GLM-5 (Zhipu AI) под SWE (software engineering) с batch до 256 rollouts на шаг. Детали вроде KV-cache salt и отсечек off-policy в анонсе описаны укрупнённо — но общая механика выглядит убедительно. Похоже, релиз нацелен на кодовых агентов и пост-тренинг открытых моделей через RL: меньше ручной инфраструктуры, больше попыток на длинных горизонтах. Цифры пока не убеждают всех, но реали

Суть подхода — полностью асинхронный RL: инференс-движок и тренер работают параллельно, поэтому GPU меньше простаивает на длинных агентных задачах (например, программировании). Отдельно заявлены оптимизации инференса: FP8 (8-битные числа с плавающей точкой) и Wide Expert Parallelism, где эксперты распределяются по большому числу GPU.

Ключевой практический эффект: в примере обучали GLM-5 (Zhipu AI) под SWE (software engineering) с batch до 256 rollouts на шаг. Детали вроде KV-cache salt и отсечек off-policy в анонсе описаны укрупнённо — но общая механика выглядит убедительно.

Похоже, релиз нацелен на кодовых агентов и пост-тренинг открытых моделей через RL: меньше ручной инфраструктуры, больше попыток на длинных горизонтах. Цифры пока не убеждают всех, но реализация по масштабу заметно выше среднего по open-source.

#tool #release #MoE #RL #FP8 #OpenSource #H200 #SWE

🔗 Prime Intellect Releases prime-rl 0.6.0 to Train Trillion-Parameter MoE Models on Agentic RL Workloads