Представьте: агент искусственного интеллекта, который сам себя обучает, не требуя от вас груд данных и немалых денег. Звучит как фантастика? Но вот исследователи из лаборатории Tongyi Lab компании Alibaba создали реальный фреймворк AgentEvolver, который делает именно это. Система позволяет агентам создавать собственные обучающие данные прямо во время взаимодействия с рабочей средой.
И вот что самое интересное: используя знания и логику больших языковых моделей, эта система учится автономно. Никаких огромных затрат на сбор специализированных датасетов, никакой бесконечной ручной работы. Вот это поворот!
Согласно результатам экспериментов, AgentEvolver работает лучше традиционных подходов на основе reinforcement learning — более эффективно исследует окружение, лучше использует данные и быстрее адаптируется. Для бизнеса это означает одно: создавать мощные, кастомные AI-помощники станет доступнее, проще и дешевле.
Почему обучение агентов сейчас стоит так дорого
Reinforcement learning — да, это классный подход для тренировки языковых моделей, чтобы они становились агентами. Но есть проблемы, и они серьезные.
Во-первых, собрать нужные данные для обучения? Это геморрой. Нужна куча примеров задач, особенно если вы работаете с чем-то специальным, внутренним в компании — готовых датасетов просто не существует. И все это требует людей, которые будут вручную создавать эти примеры.
Во-вторых, сама техника RL — это попробуй, ошибись, попробуй снова. Модель должна прогнать через себя огромное количество попыток, чтобы чему-то научиться. Вычислительно это дорого и неэффективно, мягко говоря. В результате обучить через RL мощного агента — это долго, дорого и сложно. Вот почему кастомные AI-помощники для предприятий остаются редкостью.
Как работает AgentEvolver: три суперсилы
Главная идея простая: дать моделям больше независимости. Исследователи называют это «self-evolving agent system» — система, которая достигает автономной и эффективной эволюции через взаимодействие со средой. Агент сам создает себе задачи и сам учится, взаимодействуя с окружением, без предопределенных целей и функций награды.
И вот интересное высказывание из исследования: «Мы видим систему агента, где LLM активно направляет исследование, генерирует задачи и совершенствует производительность», — пишут авторы в своей работе.
Весь процесс самосовершенствования построен на трех механизмах. Давайте разберемся.
Механизм первый — self-questioning (самопроверка)
Агент исследует окружение, как новый пользователь, кликающий по приложению, чтобы понять, что можно делать. Он находит границы своих функций, открывает полезные состояния. На основе этого исследования он сам генерирует разнообразные задачи, которые совпадают с предпочтениями пользователя. Не нужно ручная работа — задачи и сам агент эволюционируют вместе, постепенно справляясь с более сложными вызовами.
Yunpeng Zhai, исследователь Alibaba и соавтор работы, объяснил VentureBeat суть: этот механизм превращает модель из «потребителя данных в производителя данных». Представьте, как это упростит развертывание агента во внутренней системе компании!
Механизм второй — self-navigating (умная навигация)
Это про эффективное исследование. AgentEvolver извлекает уроки как из успехов, так и из неудач, и использует эти знания для будущих действий. К примеру, если агент попытался использовать функцию API, которая не существует, он это запоминает и в следующий раз проверит наличие функции перед использованием. Умно же?
Механизм третий — self-attributing (детальная оценка)
А вот это особенно интересно для индустрий с регуляциями. Вместо простого сигнала «успешно или нет» (как часто бывает в RL), этот механизм использует LLM для оценки вклада каждого отдельного действия в многошаговой задаче. Система смотрит на каждый шаг и определяет: помог ли он или, наоборот, отвлек от цели? Обратная связь становится очень подробной.
Это критично для регулируемых отраслей. «Вместо того чтобы хвалить ученика только за окончательный ответ, мы также оцениваем ясность и правильность каждого шага его рассуждения», — объясняет Zhai. Так агент учится прозрачным и проверяемым подходам.
«Переместив инициативу обучения от инженеров к самосовершенствованию LLM, AgentEvolver открывает новую парадигму масштабируемых, экономичных и постоянно улучшающихся интеллектуальных систем», — заключают исследователи.
Кстати, команда создала практический, полный pipeline обучения, который интегрирует все три механизма. Ключевая часть — это Context Manager, компонент, управляющий памятью агента и историей взаимодействий. Это важно, потому что в реальных корпоративных средах может быть тысячи API, а тестовые бенчмарки обычно проверяют намного меньше инструментов.
Zhai признает, что это серьезный вызов, но подчеркивает: AgentEvolver разработан для расширения. «Поиск в огромных пространствах действий всегда будет вычислительно сложным, но архитектура AgentEvolver показывает ясный путь к масштабируемому рассуждению о инструментах в корпоративной среде», — говорит он.
Более быстрый путь к обучению агентов
Чтобы проверить, насколько эффективен фреймворк, исследователи тестировали его на двух бенчмарках: AppWorld и BFCL v3. Оба требуют от агентов выполнения длинных многошаговых задач с использованием внешних инструментов. Использовались модели из семейства Qwen2.5 (7B и 14B параметров) и сравнивались результаты с базовой моделью, обученной с помощью GRPO — популярной техники RL, используемой для развития рассуждающих моделей типа DeepSeek-R1.
Результаты потрясающие. Когда все три механизма работают вместе, производительность улучшается существенно. Для модели в 7B параметров средний результат вырос на 29.4%, для 14B — на 27.8% по сравнению с базовым вариантом. Самый значительный прирост — от механизма self-questioning, который самостоятельно генерирует разнообразные обучающие задачи. Вот это решение проблемы нехватки данных!
Экспериментальные данные также показывают: AgentEvolver эффективно синтезирует большой объем высококачественных обучающих данных. Задачи, которые генерирует механизм self-questioning, достаточно разнообразны, чтобы обеспечить хорошую эффективность обучения даже с малым количеством информации.
Для предприятий это открывает дорогу: создавать агентов для специализированных приложений и внутренних рабочих процессов, минимизируя нужду в ручной разметке данных. Просто дайте высокоуровневые цели — и пусть агент сам генерирует собственный тренировочный опыт. Кастомные AI-помощники становятся проще и дешевле.
«Такое сочетание алгоритмического дизайна и инженерной практики позиционирует AgentEvolver как исследовательский инструмент и переиспользуемую основу для построения адаптивных агентов, работающих с инструментами», — подводят итоги исследователи.
А вот перспектива еще амбициознее. «Истинная ‘универсальная модель’, которая может быть развернута в любой программной среде и овладеть ею за ночь — это святой Грааль агентивного AI», — говорит Zhai. «Мы видим AgentEvolver как необходимый шаг в этом направлении». Да, будущее требует еще прорывов в рассуждениях моделей и инфраструктуре, но self-evolving подходы уже прокладывают путь.
Эта новость про самоэволюцию AI-агентов — ровно то, за чем стоит следить. Технология, которая может изменить, как компании строят и развертывают свои AI-помощники.🔔 Чтобы узнавать больше о будущем AI-агентов и не пропустить самые интересные разработки в мире AI, подписывайтесь на мой канал «ProAI» в Telegram!