Представьте: нейросеть, которая не просто решает математические примеры, а общается с внешним миром, вызывает API и принимает решения на лету. Звучит как научная фантастика? А вот исследователи из Университета науки и технологий Китая только что создали именно это. Они разработали новую систему обучения с подкреплением (её называют RL), которая учит большие языковые модели справляться с действительно сложными задачами — теми, которые требуют взаимодействия с окружающей средой.
Их разработку назвали Agent-R1, и она работает со множеством RL-алгоритмов. Главное — система показала серьёзный прогресс в решении задач, которые требуют поиска информации в несколько этапов и многоходовых взаимодействий с инструментами.
Почему это важно? Потому что создатели переопределили само понимание обучения с подкреплением. Они учли динамичность реальных приложений — когда окружение постоянно меняется, информация неполная, а предсказать результат сложно. Это гораздо ближе к тому, что нужно компаниям на самом деле.
Переосмысление обучения с подкреплением для агентов
Долгое время RL справлялась отлично с чёткими задачами. Математика? Либо ответ правильный, либо нет. Кодирование? Программа либо работает, либо крашится. Простой, понятный сигнал — вознаграждение или штраф.
Но представьте, что нужно научить модель работать в интерактивном мире. Она должна запоминать предыдущие разговоры, многошагово рассуждать, отвечать на непредсказуемые реакции окружения. Вот тут RL начинает буксовать. Сложно придумать справедливое вознаграждение за промежуточные шаги. И часто получается, что модель обучается на тренировочных данных, но в реальности работает плохо.
Исследователи решили вернуться к истокам. Они взяли фундаментальный математический аппарат — марковский процесс принятия решений (MDP). Это четыре компонента: пространство состояний (где может находиться агент), пространство действий (что он может делать), вероятности переходов (что произойдёт после действия) и функция вознаграждения (хорошо это или плохо).
А потом расширили этот аппарат специально для LLM-агентов.
Первое изменение: состояние теперь это не только текущий текст, но вся история взаимодействий и обратная связь от окружения. Действия остаются текстом, но определённые последовательности слов могут запустить внешний инструмент — вызвать API, например. Переходы между состояниями становятся непредсказуемыми, потому что зависят не только от модели, но и от реакции окружения. И самое главное — вознаграждение становится детальнее.
Вместо одного сигнала в конце появляются промежуточные награды за каждый правильный шаг. Это решает классическую проблему разреженных вознаграждений: когда агент получает только финальный результат, он не может понять, какие промежуточные действия были ошибочными. Промежуточные награды дают частую и точную обратную связь — обучение идёт намного эффективнее.
«Эти расширения критически важны для того, чтобы алгоритмы обучения с подкреплением могли учить сложных агентов, способных к многошаговому рассуждению в динамичных окружениях», — пишут авторы.
Как работает Agent-R1
На основе этого переопределённого MDP учёные создали Agent-R1 — гибкую платформу для обучения RL-агентов на базе большых языковых моделей. Она расширяет традиционные однооходовые RL-системы на многооходовые интерактивные задачи и работает с разными окружениями.
В чём главное отличие? В фазе, когда агент генерирует ответы. Обычный RL — один проход. Agent-R1 — это серия сложных взаимодействий туда-сюда.
Система использует два основных модуля: Tool и ToolEnv. Tool — это исполнитель конкретного действия. Он вызывает API, обращается к базе данных и возвращает результат. ToolEnv — это режиссёр. Он берёт результат от Tool, смотрит, как это повлияло на состояние агента и прогресс задачи. Он управляет переходами, рассчитывает награды и подготавливает информацию для следующего шага.
Короче: Tool говорит, «что произошло», а ToolEnv объясняет, «что это значит для агента и задачи».
Agent-R1 на практике
Исследователи проверили систему на сложной задаче — многошаговом поиске ответов на вопросы. Нужно искать информацию в нескольких документах, логически связывать факты. Они обучили модель Qwen2.5-3B-Instruct и проверили на датасетах HotpotQA, 2WikiMultihopQA и Musique (этот датасет модель вообще не видела во время обучения).
Сравнивали с двумя базовыми подходами: обычный поиск с одним проходом и встроенная функция вызова инструментов без специального RL-обучения.
Результаты? Все обученные RL-агенты значительно превзошли базовые методы. Лучше всего показал себя алгоритм GRPO — тот самый, что используется в продвинутых моделях вроде DeepSeek-R1.
«Эти результаты прочно подтверждают эффективность Agent-R1 в обучении мощных LLM-агентов через сквозное RL, показывая стабильный и существенный прогресс над базовыми методами на разных датасетах и алгоритмах», — пишут создатели.
Для бизнеса это может быть прорывом. Большие компании давно мечтают о RL и продвинутом рассуждении не только для чистой математики, а для реальных, грязных задач. Система, которая может работать с многооходовыми взаимодействиями и динамичным окружением — это ровно то, что нужно для сложных проблем в действительном мире.
«Мы надеемся, что Agent-R1 станет основой для будущих работ по масштабируемому и унифицированному RL-обучению для agentic LLM», — заключают авторы.
Мир ИИ развивается с огромной скоростью, и такие прорывы, как Agent-R1, открывают совершенно новые возможности. Чтобы не пропустить самые интересные исследования и разработки в области искусственного интеллекта, следите за новостями.🔔 Подписывайтесь на мой канал «ProAI» в Telegram, чтобы узнавать о новых методах обучения ИИ, прорывных моделях и практическом применении машинного обучения в бизнесе!