Найти в Дзене
ProAi

ReasoningBank: как научить ИИ-агента учиться на своих ошибках (и не только)

Оглавление
   ИИ-агенты, машинное обучение и ReasoningBank: изучаем память в ИИ и дистилляцию стратегий для управления рабочими процессами и адаптации ИИ.
ИИ-агенты, машинное обучение и ReasoningBank: изучаем память в ИИ и дистилляцию стратегий для управления рабочими процессами и адаптации ИИ.

Представьте себе ИИ-агента, который не просто выполняет задачи, а запоминает, как он их решал. И что важнее — помнит, где облажался. Звучит как фантастика? А вот и нет.

Исследователи из Университета Иллинойса в Урбана-Шампейн и Google Cloud AI Research разработали штуку под названием ReasoningBank. Это, по сути, банк памяти для больших языковых моделей (LLM), который помогает агентам становиться умнее со временем. Короче, они учатся на опыте — как люди, только быстрее.

В чём вообще проблема с памятью у ИИ-агентов?

Ну смотрите. Современные LLM-агенты работают как золотые рыбки: каждую новую задачу воспринимают так, будто видят её в первый раз. Наступили на грабли вчера? Отлично, наступим ещё раз сегодня! Никакого накопления опыта, никаких выводов.

Конечно, попытки дать агентам память были и раньше. Исследователи пробовали сохранять логи взаимодействий, строить графы знаний — всякое такое. Но, как отмечают авторы статьи, эти подходы часто сводились к «пассивному ведению записей», а не к реальной помощи в принятии решений. Плюс они обычно запоминали только успехи, игнорируя неудачи. А ведь именно на ошибках учатся лучше всего, правда?

Как работает ReasoningBank?

Вот тут начинается интересное. ReasoningBank не просто складирует данные — он дистиллирует стратегии из успешных и проваленных попыток решить задачу. То есть выжимает суть: что сработало, что нет, и почему.

Джун Ян, один из авторов исследования, объясняет это так: традиционные агенты работают статично — каждая задача обрабатывается изолированно. ReasoningBank меняет правила игры, превращая каждый опыт (удачный или нет) в структурированную, переиспользуемую память. В итоге агент не начинает с нуля при каждом новом запросе — он вспоминает и адаптирует проверенные стратегии из похожих прошлых случаев.

Приведу пример. Допустим, агент ищет наушники Sony в онлайн-магазине. Он вбивает слишком общий запрос и получает 4000+ нерелевантных результатов. Провал, да? ReasoningBank разбирает ситуацию: почему не сработало? И формулирует стратегии вроде «оптимизируй поисковый запрос» или «используй фильтры по категориям». Эти стратегии сохраняются в памяти и используются в будущем при похожих задачах. Круто же!

Процесс работает в замкнутом цикле:

  • Агент получает новую задачу.
  • Он ищет в ReasoningBank релевантные воспоминания (через embedding-поиск) и подставляет их в системный промпт.
  • Выполняет задачу.
  • Анализирует результат: что получилось, что нет.
  • Извлекает новые инсайты, дистиллирует их и сливает обратно в банк памяти.

И так по кругу. Агент постоянно эволюционирует.

Память плюс масштабирование: двойной удар

Исследователи пошли дальше и обнаружили мощную синергию между памятью и так называемым test-time scaling (масштабированием во время выполнения). Обычно это значит: генерируем несколько независимых ответов на один вопрос и выбираем лучший. Но авторы говорят, что в таком виде это неоптимально, потому что не использует контрастный сигнал, возникающий при избыточном исследовании одной и той же проблемы.

Их решение — Memory-aware Test-Time Scaling (MaTTS). Две формы:

  • Параллельное масштабирование: система генерирует несколько траекторий решения одной задачи, затем сравнивает их и выявляет устойчивые паттерны рассуждений.
  • Последовательное масштабирование: агент итеративно уточняет рассуждения в рамках одной попытки, и промежуточные заметки и коррекции тоже служат ценными сигналами для памяти.

Получается положительная обратная связь: память в ReasoningBank направляет агента к более перспективным решениям, а разнообразный опыт, полученный через масштабирование, позволяет создавать память более высокого качества. По словам исследователей, это открывает новое измерение масштабирования для агентов — через опыт.

Результаты тестов: цифры говорят сами за себя

Команда протестировала ReasoningBank на бенчмарках WebArena (веб-браузинг) и SWE-Bench-Verified (разработка ПО), используя модели вроде Gemini 2.5 Pro от Google и Claude 3.7 Sonnet от Anthropic. Сравнивали с агентами без памяти и с другими подходами к памяти (траекторные, workflow-based).

Что вышло? ReasoningBank стабильно опережал все базовые варианты на всех датасетах и моделях. На WebArena он поднял общий показатель успеха на 8,3 процентных пункта по сравнению с агентом без памяти. Плюс лучше обобщался на сложных междоменных задачах и сокращал количество шагов взаимодействия, необходимых для выполнения задачи.

А когда ReasoningBank скомбинировали с MaTTS, результаты стали ещё лучше — обе формы масштабирования (параллельная и последовательная) превзошли стандартное test-time scaling.

Ян приводит конкретный кейс: агент без памяти потратил восемь шагов методом проб и ошибок, чтобы найти правильный фильтр товаров на сайте. С ReasoningBank эти затраты можно было избежать, используя релевантные инсайты из прошлого опыта. «В этом случае мы экономим почти вдвое операционные расходы», — отмечает он. Плюс улучшается пользовательский опыт, потому что проблемы решаются быстрее.

Что это даёт бизнесу?

Для компаний ReasoningBank — это путь к созданию экономичных агентов, которые могут учиться на опыте и адаптироваться со временем в сложных рабочих процессах. Разработка ПО, клиентская поддержка, анализ данных — везде, где нужна гибкость и накопление знаний.

Ян видит будущее в «композиционном интеллекте». Например, кодинговый агент может учиться отдельным навыкам — интеграции API, работе с базами данных — из разных задач. Со временем эти модульные навыки становятся строительными блоками, которые агент может гибко комбинировать для решения более сложных задач. Представьте: агенты автономно собирают свои знания для управления целыми рабочими процессами с минимальным участием человека. Уже не так фантастично звучит, да?

Другие новости из мира ИИ

Кстати, пока исследователи учат агентов запоминать прошлое, другие компании не дремлют. Notion, например, полностью перестроил свою платформу для версии 3.0, чтобы поддерживать агентов на уровне предприятия. Не побоялись начать с нуля — и правильно, потому что старые подходы просто не подходят для продвинутых reasoning-моделей.

OpenAI тоже не отстаёт: на DevDay анонсировали Apps SDK — инструмент, который позволяет строить приложения прямо внутри ChatGPT. Да ещё и платные, через их новый Agentic Commerce Protocol (ACP). Короче, OpenAI всё больше превращается в full-stack платформу для приложений.

А ещё продолжается тренд на маленькие, но мощные open-source модели, которые обгоняют гигантские проприетарные аналоги. AI21 Labs, например, делает ставку на модели для устройств — это разгрузит дата-центры. Всё движется к тому, что ИИ будет работать локально, быстрее и дешевле.

Почему это всё важно прямо сейчас?

Мне кажется, мы находимся на пороге серьёзного сдвига. ИИ-агенты перестают быть просто «умными чат-ботами» и превращаются в инструменты, способные реально автоматизировать сложные задачи, учиться и адаптироваться. ReasoningBank — один из кирпичиков этого будущего. Он показывает, что память и опыт — не просто красивые слова, а вполне реализуемые штуки, которые делают агентов действительно полезными в долгосрочной перспективе.

Конечно, есть и скептики, которые говорят, что ИИ — не панацея, что автоматизация не заменит людей полностью, что важно сохранять критическое мышление. И они правы! Но отрицать прогресс глупо. Вопрос не в том, заменит ли ИИ нас, а в том, как мы будем его использовать и контролировать.

Хотите быть в курсе последних прорывов в ИИ, агентов, памяти для моделей и других технологий, которые меняют мир прямо сейчас?🔔 Узнавайте первыми о новостях и трендах искусственного интеллекта — подписывайтесь на мой канал «ProAI» в Telegram!