616 подписчиков

NVIDIA решила одну из главных проблем ИИ-агентов. Теперь Codex, Claude Code и Qwen Code можно обучать без переписывания их кода

ВчераВчера

5 мин

Последние несколько месяцев рынок буквально захлестнула волна ИИ-агентов. OpenAI развивает Codex, Anthropic продвигает Claude Code, Alibaba активно развивает Qwen Code, появляются новые агентные платформы, способные самостоятельно писать код, запускать команды, работать с репозиториями и выполнять сложные многошаговые задачи. Но вместе с ростом возможностей появилась и серьёзная проблема. Каждый такой агент использует собственную логику работы. Свои системные промпты, свои правила вызова инструментов, собственные механизмы управления контекстом и даже собственный способ отправки изменений в код. Именно поэтому обучение новых моделей для таких систем превращается в настоящую головную боль для исследователей. Чтобы обучить модель через Reinforcement Learning, разработчикам обычно приходится интегрировать каждую агентную систему в собственную инфраструктуру обучения. И чем популярнее становятся агентные среды, тем больше такого кода приходится поддерживать. Именно эту проблему NVIDIA реши

Оглавление

Почему обучение ИИ-агентов стало таким сложным
Идея Polar оказалась намного проще
Что делает Polar во время работы

Последние несколько месяцев рынок буквально захлестнула волна ИИ-агентов.

OpenAI развивает Codex, Anthropic продвигает Claude Code, Alibaba активно развивает Qwen Code, появляются новые агентные платформы, способные самостоятельно писать код, запускать команды, работать с репозиториями и выполнять сложные многошаговые задачи.

Но вместе с ростом возможностей появилась и серьёзная проблема.

Каждый такой агент использует собственную логику работы. Свои системные промпты, свои правила вызова инструментов, собственные механизмы управления контекстом и даже собственный способ отправки изменений в код. Именно поэтому обучение новых моделей для таких систем превращается в настоящую головную боль для исследователей.

Чтобы обучить модель через Reinforcement Learning, разработчикам обычно приходится интегрировать каждую агентную систему в собственную инфраструктуру обучения. И чем популярнее становятся агентные среды, тем больше такого кода приходится поддерживать.

Именно эту проблему NVIDIA решила с помощью нового проекта под названием Polar.

Почему обучение ИИ-агентов стало таким сложным

Большинство современных систем обучения с подкреплением используют классическую схему среды выполнения.

Обычно агент должен быть встроен в инфраструктуру, которая управляет запуском, шагами выполнения и завершением задачи.

Из-за этого каждый новый агент требует отдельной интеграции. А самое неприятное заключается в том, что при такой адаптации часто теряются особенности работы оригинальной среды. Именно те особенности, которые влияют на итоговое качество модели.

Получается парадоксальная ситуация.

Модель обучается в одной среде, а затем используется в другой. В результате поведение на этапе эксплуатации может заметно отличаться от поведения во время обучения.

Идея Polar оказалась намного проще

В NVIDIA посмотрели на проблему с другой стороны.

Независимо от того, используется Codex, Claude Code, Gemini CLI или Qwen Code, в какой-то момент агент всё равно обращается к языковой модели через API.

Это единственная точка, которая присутствует абсолютно во всех системах.

Поэтому вместо интеграции внутрь каждого агента Polar размещается между агентом и моделью.

Для существующего агента практически ничего не меняется. Он продолжает работать как раньше, но теперь все запросы проходят через специальный шлюз Polar, который собирает данные, необходимые для обучения.

Фактически NVIDIA создала универсальный переходник для обучения агентных систем.

Что делает Polar во время работы

Каждый запрос к модели проходит несколько этапов обработки.

Сначала система автоматически определяет, с каким API работает агент.

Поддерживаются:

Anthropic Messages;
OpenAI Chat Completions;
OpenAI Responses;
Google GenerateContent.

После этого запрос приводится к единому внутреннему формату.

Далее Polar сохраняет всю информацию, необходимую для обучения:

сообщения пользователя;
ответы модели;
токены;
вероятности генерации;
причину завершения ответа.

А затем возвращает результат обратно в том формате, который ожидает агент.

Сам агент при этом даже не подозревает, что между ним и моделью появился дополнительный слой.

Самое интересное — код агента менять не нужно

Это, пожалуй, главное преимущество проекта.

Для подключения Polar разработчику достаточно изменить адрес модели.

Например:

Было:
https://api.provider.com

Стало:
https://polar-gateway.local

На этом интеграция фактически заканчивается.

Для мира ИИ-агентов это довольно серьёзное упрощение.

Один алгоритм ускорил обучение более чем в пять раз

Во время разработки исследователи столкнулись ещё с одной проблемой.

После завершения работы агента необходимо восстановить траекторию его действий для последующего обучения.

Первоначально использовался подход, при котором каждый запрос рассматривался отдельно. Однако в длинных сессиях это приводило к появлению сотен отдельных записей и серьёзно замедляло обучение.

Для решения этой проблемы был создан механизм prefix_merging.

Он объединяет связанные действия агента в длинные последовательности и восстанавливает целостную историю выполнения задачи.

Результат оказался впечатляющим.

Количество обновлений тренера сократилось с 1185 до 218, а общее время выполнения уменьшилось с 189 минут до 35 минут. Это позволило получить ускорение примерно в 5,4 раза и значительно повысить загрузку GPU.

Что показали тесты на SWE-Bench

Для проверки возможностей Polar использовалась модель Qwen3.5-4B и стандартное обучение через GRPO.

Особенно интересными оказались результаты в Codex.

До обучения через Polar модель показывала результат всего 3,8% на SWE-Bench Verified. После обучения показатель вырос до 26,4%.

Это один из самых больших приростов среди всех протестированных сред.

В Claude Code качество также выросло, а в Pi прирост составил более шести процентных пунктов.

Даже в Qwen Code, где модель уже была хорошо адаптирована к собственной среде, Polar всё равно смог показать дополнительное улучшение.

Polar умеет не только обучать модели

Ещё одна интересная возможность проекта связана с генерацией датасетов для последующего SFT-обучения.

Во время экспериментов система обработала 1638 задач из SWE-Gym и смогла получить 504 успешные траектории обучения. Общий процент успешных решений составил около 31%.

При этом на весь процесс потребовалось примерно 64 GPU-часа.

Для крупных исследовательских команд такая возможность может оказаться не менее важной, чем само RL-обучение.

Почему этот проект важен

Сейчас индустрия движется в сторону агентных систем.

Модели уже не просто отвечают на вопросы пользователей. Они запускают инструменты, работают с кодом, анализируют документы, выполняют сложные многошаговые задачи и всё чаще действуют как полноценные цифровые помощники.

Но чем больше появляется агентных платформ, тем сложнее становится их обучение.

Polar предлагает довольно элегантное решение этой проблемы.

Вместо бесконечной адаптации инфраструктуры под каждый новый агент NVIDIA предлагает обучать модели через универсальный слой на уровне API. Благодаря этому исследователи могут использовать Codex, Claude Code, Gemini CLI, Qwen Code и другие системы практически без изменений и при этом получать реальные улучшения качества обучения.

Если рынок ИИ-агентов продолжит расти такими темпами, как сейчас, то Polar вполне может стать одним из ключевых инструментов для обучения следующего поколения агентных моделей.