Исследователи опубликовали работу под названием «Next-Generation Agentic Reinforcement Learning Systems Enable Self-Evolving Agents», где описан механизм, позволяющий корпоративным ИИ-агентам развиваться без постоянного вмешательства разработчиков. Агенты, которые работают внутри компаний, каждый день генерируют огромный объем полезных данных о своей работе. Проблема в том, что команды обычно улучшают их вручную: инженеры вычитывают логи, правят промпты, дообучают модели и заново разворачивают системы. Такой процесс медленный и не поспевает за темпом накопления данных. Авторы предлагают трехчастный механизм. Сначала каждый шаг агента записывается в общем формате, пригодном для дальнейшего обучения. Затем данные проходят через прокси-слой, который очищает их, приводит к единому виду, сохраняет и позволяет заново воспроизводить реальные сценарии работы. Отдельный управляющий слой решает, что стоит обновить: память агента, его навыки, промпты, инструменты или веса самой модели. Один из