В докладе Ву И — ассистента профессора Технологического института Цинхуа и бывшего исследователя OpenAI — на QCon Shanghai 2025 представлена система AReaL и набор практик для эффективного применения усиленного обучения (RL) при создании масштабных интеллектуальных агентов.
Переход от «LLM как генератора текста» к «агенту, который действует» требует не только языкового качества, но и способности планировать, подтверждать факты, управлять долгосрочной памятью и безопасно выполнять инструменты/действия.
RLHF (Reinforcement Learning from Human Feedback) дал толчок к решению проблемы следования инструкциям; далее появилось «Reasoning RL» (периоды внутренней "мысли"), а теперь — Agent RL, где модель взаимодействует с внешними инструментами, песочницами и сложными рабочими процессами.
Агент должен уметь справляться с неопределённостью, конфликтной информацией и подбором оптимальной цепочки действий в большом наборе доступных моделей и инструментов — традиционные workflow‑шаблоны часто не справляются.
Три ключевых барьера для широкого применения Agent RL
- Системная сложность и низкая скорость обучения
- В RL сочетаются разные типы вычислений (инференс, обучение SFT, оценка наград, песочница), и стандартная синхронная схема приводит к простоям GPU/CPU из‑за «длиннохвостых» траекторий.
- Дефицит подходящих данных для обучения
- Случаи сложных многошаговых задач встречаются редко, готовых параллельных траекторий мало, а ручная аннотация дорогая и медленная.
- Недостаток реалистичных сред (sandbox/virtual computer)
- Агенту нужно безопасно пробовать действия в среде, близкой к реальному приложению; строить такие среды инженерно сложно.
Что предлагает AReaL: принципы и реальности
- System↔Algorithm co‑design. AReaL реализует асинхронную архитектуру, где inference и обучение идут параллельно: GPU не простаивает в ожидании самых долгих траекторий, параметры обновляются с минимальной паузой. Такой подход даёт серьёзное ускорение (в докладе — упоминание ~5× ускорения для search‑агента).
- Интеллектуальная генерация данных. AReaL использует «агент‑стиль» синтеза сложных запросов: берутся реальные ответы/источники, из них автоматически конструируются сложные задачные вопросы с проверкой сложности и релевантности — это даёт баланс между простыми и «настоящими» сложными примерами.
- Модульные среды и инструментарий. Команда открыла набор проектов (например, ASearcher для поискового агента и планируемый AWorld для песочниц), чтобы ускорить создание реалистичных виртуальных окружений для обучения и тестирования.
Иллюстрация: пример ASearcher
- Задача: отвечать на вопросы через поиск и чтение веб‑страниц. Парадокс: даже исторические факты (например, число золотых медалей Китая на Лондонской олимпиаде) могут меняться со временем из‑за переаттестаций и пересчётов — простой поисковый пайплайн ошибается.
- Решение ASearcher: минимальный набор инструментов (поиск + клик по страницам) + RL‑политика, обученная искать дополнительные подтверждения, рекурсивно верифицировать источники и делать вывод только после достаточной проверки.
- Результат: агент на RL‑основе спустя итерации научился находить финальную (обновлённую) истину, заметно повышая точность в сравнении с обычным SFT/нативными моделями.
Инфраструктура
- Делайте inference и training асинхронными; уменьшайте время ожидания по «самой длинной» траектории.
- Стройте отдельные «пулы» карт: одни для быстрых параллельных inference, другие для тяжёлого обучения. Параметры обновлять мягко, чтобы не разрушать стабильность обучения.
- Латентность имеет значение: агент «чувствует» задержки, поэтому важно держать отклик песочниц в пределах человеческого порога (примерно сотни миллисекунд).
Данные
- Генерируйте синтетические сложные кейсы, начиная с реальных ответов; автоматически контролируйте уровень сложности.
- Используйте контрастные примеры и последовательные раунды верификации (agent проверяет свои выводы против альтернативных источников).
Среды и безопасность
- Песочницы должны быть реалистичными, но изолированными; проектировать их нужно с учётом инструментов, которые агент будет вызывать в продакшене.
- Контроль доступа, авторизация и step‑limits (ограничение числа действий) — обязательные средства безопасности.
Алгоритмы
- Применяйте гибриды: SFT → RLHF/Reasoning RL → Online RL; сочетайте reward‑модели с метриками качества и доверия к источникам.
- Для многошаговых задач выгодны алгоритмы, поощряющие исследования с управленияемым риском (exploration with safety constraints).
Практические рекомендации для команд и продуктов
Начинайте с простых Sandbox‑инструментов и минимального набора внешних вызовов: доказав качество на базовом наборе, постепенно расширяйте инструменты агента.
Инвестируйте в инфраструктуру параллельного сбора данных и асинхронного обучения — без этого RL для сложных агентов будет экономически неэффективен.
Работайте над метрикой «достоверности» и «сигнала доверия» для источников — агенты должны уметь оценивать надёжность информации.
Открывайте и делитесь инструментарием: сообщество и совместная разработка (open source) ускоряют возникновение рабочих стандартов для «Claw‑stack» и Agent RL.
Итог
В задачах с многшаговой структурой, высокой неопределённостью и потребностью в проверке фактов (поиск, юридические/исследовательские задачи, автоматизация бизнес‑процессов).
В продуктах, где агент должен адаптироваться под индивидуальные предпочтения и накопленную долгосрочную память.
На переходном этапе от ручного workflow‑оригамы к автономным рабочим процессам, где агент не просто генерирует текст, а действует в окружении.
Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.
ИИ сегодня — ваше конкурентное преимущество завтра!
Тел. +7 (985) 982-70-55
E-mail sms_systems@inbox.ru
Сайт https://www.smssystems.ru/razrabotka-ai/