Найти в Дзене
Social Mebia Systems

Усиленное обучение в эпоху агентов: фреймворк AReaL и практики для разработки Agent

В докладе Ву И — ассистента профессора Технологического института Цинхуа и бывшего исследователя OpenAI — на QCon Shanghai 2025 представлена система AReaL и набор практик для эффективного применения усиленного обучения (RL) при создании масштабных интеллектуальных агентов. Переход от «LLM как генератора текста» к «агенту, который действует» требует не только языкового качества, но и способности планировать, подтверждать факты, управлять долгосрочной памятью и безопасно выполнять инструменты/действия. RLHF (Reinforcement Learning from Human Feedback) дал толчок к решению проблемы следования инструкциям; далее появилось «Reasoning RL» (периоды внутренней "мысли"), а теперь — Agent RL, где модель взаимодействует с внешними инструментами, песочницами и сложными рабочими процессами. Агент должен уметь справляться с неопределённостью, конфликтной информацией и подбором оптимальной цепочки действий в большом наборе доступных моделей и инструментов — традиционные workflow‑шаблоны часто не спра

В докладе Ву И — ассистента профессора Технологического института Цинхуа и бывшего исследователя OpenAI — на QCon Shanghai 2025 представлена система AReaL и набор практик для эффективного применения усиленного обучения (RL) при создании масштабных интеллектуальных агентов.

Переход от «LLM как генератора текста» к «агенту, который действует» требует не только языкового качества, но и способности планировать, подтверждать факты, управлять долгосрочной памятью и безопасно выполнять инструменты/действия.

RLHF (Reinforcement Learning from Human Feedback) дал толчок к решению проблемы следования инструкциям; далее появилось «Reasoning RL» (периоды внутренней "мысли"), а теперь — Agent RL, где модель взаимодействует с внешними инструментами, песочницами и сложными рабочими процессами.

Агент должен уметь справляться с неопределённостью, конфликтной информацией и подбором оптимальной цепочки действий в большом наборе доступных моделей и инструментов — традиционные workflow‑шаблоны часто не справляются.

Три ключевых барьера для широкого применения Agent RL

  1. Системная сложность и низкая скорость обучения
  • В RL сочетаются разные типы вычислений (инференс, обучение SFT, оценка наград, песочница), и стандартная синхронная схема приводит к простоям GPU/CPU из‑за «длиннохвостых» траекторий.
  1. Дефицит подходящих данных для обучения
  • Случаи сложных многошаговых задач встречаются редко, готовых параллельных траекторий мало, а ручная аннотация дорогая и медленная.
  1. Недостаток реалистичных сред (sandbox/virtual computer)
  • Агенту нужно безопасно пробовать действия в среде, близкой к реальному приложению; строить такие среды инженерно сложно.

Что предлагает AReaL: принципы и реальности

  • System↔Algorithm co‑design. AReaL реализует асинхронную архитектуру, где inference и обучение идут параллельно: GPU не простаивает в ожидании самых долгих траекторий, параметры обновляются с минимальной паузой. Такой подход даёт серьёзное ускорение (в докладе — упоминание ~5× ускорения для search‑агента).
  • Интеллектуальная генерация данных. AReaL использует «агент‑стиль» синтеза сложных запросов: берутся реальные ответы/источники, из них автоматически конструируются сложные задачные вопросы с проверкой сложности и релевантности — это даёт баланс между простыми и «настоящими» сложными примерами.
  • Модульные среды и инструментарий. Команда открыла набор проектов (например, ASearcher для поискового агента и планируемый AWorld для песочниц), чтобы ускорить создание реалистичных виртуальных окружений для обучения и тестирования.

Иллюстрация: пример ASearcher

  • Задача: отвечать на вопросы через поиск и чтение веб‑страниц. Парадокс: даже исторические факты (например, число золотых медалей Китая на Лондонской олимпиаде) могут меняться со временем из‑за переаттестаций и пересчётов — простой поисковый пайплайн ошибается.
  • Решение ASearcher: минимальный набор инструментов (поиск + клик по страницам) + RL‑политика, обученная искать дополнительные подтверждения, рекурсивно верифицировать источники и делать вывод только после достаточной проверки.
  • Результат: агент на RL‑основе спустя итерации научился находить финальную (обновлённую) истину, заметно повышая точность в сравнении с обычным SFT/нативными моделями.

Инфраструктура

  • Делайте inference и training асинхронными; уменьшайте время ожидания по «самой длинной» траектории.
  • Стройте отдельные «пулы» карт: одни для быстрых параллельных inference, другие для тяжёлого обучения. Параметры обновлять мягко, чтобы не разрушать стабильность обучения.
  • Латентность имеет значение: агент «чувствует» задержки, поэтому важно держать отклик песочниц в пределах человеческого порога (примерно сотни миллисекунд).

Данные

  • Генерируйте синтетические сложные кейсы, начиная с реальных ответов; автоматически контролируйте уровень сложности.
  • Используйте контрастные примеры и последовательные раунды верификации (agent проверяет свои выводы против альтернативных источников).

Среды и безопасность

  • Песочницы должны быть реалистичными, но изолированными; проектировать их нужно с учётом инструментов, которые агент будет вызывать в продакшене.
  • Контроль доступа, авторизация и step‑limits (ограничение числа действий) — обязательные средства безопасности.

Алгоритмы

  • Применяйте гибриды: SFT → RLHF/Reasoning RL → Online RL; сочетайте reward‑модели с метриками качества и доверия к источникам.
  • Для многошаговых задач выгодны алгоритмы, поощряющие исследования с управленияемым риском (exploration with safety constraints).

Практические рекомендации для команд и продуктов

Начинайте с простых Sandbox‑инструментов и минимального набора внешних вызовов: доказав качество на базовом наборе, постепенно расширяйте инструменты агента.

Инвестируйте в инфраструктуру параллельного сбора данных и асинхронного обучения — без этого RL для сложных агентов будет экономически неэффективен.

Работайте над метрикой «достоверности» и «сигнала доверия» для источников — агенты должны уметь оценивать надёжность информации.

Открывайте и делитесь инструментарием: сообщество и совместная разработка (open source) ускоряют возникновение рабочих стандартов для «Claw‑stack» и Agent RL.

Итог

В задачах с многшаговой структурой, высокой неопределённостью и потребностью в проверке фактов (поиск, юридические/исследовательские задачи, автоматизация бизнес‑процессов).

В продуктах, где агент должен адаптироваться под индивидуальные предпочтения и накопленную долгосрочную память.

На переходном этапе от ручного workflow‑оригамы к автономным рабочим процессам, где агент не просто генерирует текст, а действует в окружении.

Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/