1857 подписчиков

Ant Group и Tsinghua выпустили AReaL v1.0 для обучения агентов в один клик

5 марта5 мар

1 мин

Ant Group и Университет Цинхуа 4 марта 2026 года открыли исходный код AReaL v1.0 — фреймворка обучения с подкреплением, который позволяет подключать ИИ-агенты к системам обучения всего одним изменением API, достигая ускорения обучения до 2,77 раза. — pandaily.com Ant Group и Университет Цинхуа представили в открытый доступ AReaL v1.0 — фреймворк для обучения с подкреплением (RL), разработанный для обеспечения интеграции ИИ-агентов в один клик. Стабильный релиз позволяет разработчикам подключать различные агентские фреймворки к системам обучения RL без изменения существующего кода, фактически делая агентное обучение с подкреплением «подключаемым» (plug and play). AReaL позиционируется как первая полностью асинхронная система обучения RL для больших моделей, которая разделяет процессы инференса (вывода) и обучения. Благодаря введению слоя Proxy Worker между агентом и системой обучения, разработчикам достаточно изменить лишь одну конечную точку запроса для активации обучения. По мере того

Ant Group и Университет Цинхуа представили в открытый доступ AReaL v1.0 — фреймворк для обучения с подкреплением (RL), разработанный для обеспечения интеграции ИИ-агентов в один клик.

Стабильный релиз позволяет разработчикам подключать различные агентские фреймворки к системам обучения RL без изменения существующего кода, фактически делая агентное обучение с подкреплением «подключаемым» (plug and play).

AReaL позиционируется как первая полностью асинхронная система обучения RL для больших моделей, которая разделяет процессы инференса (вывода) и обучения. Благодаря введению слоя Proxy Worker между агентом и системой обучения, разработчикам достаточно изменить лишь одну конечную точку запроса для активации обучения.

По мере того как большие языковые модели эволюционируют в сторону архитектур, ориентированных на рассуждения, обучение с подкреплением становится критически важным для улучшения логического вывода. Однако большинство современных RL-систем полагаются на синхронные механизмы, что приводит к простою значительных ресурсов GPU. AReaL устраняет задержки синхронизации за счет полного разделения генерации и обучения.

Экспериментальные результаты показывают, что при одинаковой конфигурации GPU AReaL может увеличить скорость обучения до 2,77 раза по сравнению с ведущими синхронными системами, одновременно улучшая производительность решения задач в определенных сценариях.

В релизе также представлен Archon — нативный движок обучения, построенный на PyTorch с полной 5D-параллельностью, поддерживающий распределенное обучение моделей Mixture-of-Experts с сотнями миллиардов параметров. Код и документация теперь доступны в сообществе open-source inclusionAI.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Pandaily

Оригинал статьи

Гаджеты и электроника

5,73 млн интересуются