80 подписчиков

Как Google и Santa Barbara научили AI-агентов экономить: бюджет вместо хаоса

16 декабря 202516 дек 2025

4 мин

Представьте: ваш AI-агент начинает исследование, находит первый намёк и начинает копать в него 10-20 запросов подряд. Потом выясняется — полный тупик. Звучит знакомо? Вот именно эту проблему решили учёные из Google и университета UC Santa Barbara. В новом исследовании они разработали фреймворк, который помогает AI-агентам разумнее использовать свои ресурсы и вычислительные мощности. Представили две крутые вещи: простой инструмент «Budget Tracker» и более продвинутый фреймворк под названием «Budget Aware Test-time Scaling» (BATS). Суть — агент теперь знает, сколько у него осталось «денег» на размышления и запросы к инструментам. Когда AI-агенты работают в реальном мире через инструменты, вопрос уже не в том, насколько умнее модель. Всё про расходы и скорость. Для бизнеса это критично: нужны эффективные агенты без неожиданных счётов. Раньше масштабирование на этапе тестирования было про то, чтобы дать модели «подумать» дольше. А вот для агентов, которые ищут информацию в интернете, число

Оглавление

Почему масштабирование tool-use — это ад
Budget Tracker: лёгкая версия для умных
BATS: серьёзный инструмент для серьёзных задач

В новом исследовании они разработали фреймворк, который помогает AI-агентам разумнее использовать свои ресурсы и вычислительные мощности. Представили две крутые вещи: простой инструмент «Budget Tracker» и более продвинутый фреймворк под названием «Budget Aware Test-time Scaling» (BATS). Суть — агент теперь знает, сколько у него осталось «денег» на размышления и запросы к инструментам.

Когда AI-агенты работают в реальном мире через инструменты, вопрос уже не в том, насколько умнее модель. Всё про расходы и скорость. Для бизнеса это критично: нужны эффективные агенты без неожиданных счётов.

Почему масштабирование tool-use — это ад

Раньше масштабирование на этапе тестирования было про то, чтобы дать модели «подумать» дольше. А вот для агентов, которые ищут информацию в интернете, число запросов — это всё. Каждый клик на ссылку, каждое прочтение страницы — это дополнительные токены, растущий контекст, задержки. И это всё стоит денег.

Зифэн Ван и Тэнсяо Лю, авторы работы, объяснили суть проблемы: «Каждый запрос к инструменту съедает токены, увеличивает контекст, добавляет время. Плюс — отдельные расходы на API». Получается замкнутый круг: больше инструментов не всегда значит лучший результат.

Когда агент просто получает больше ресурсов без понимания бюджета, он теряется. «В глубоком поиске без ощущения бюджета агент слепо бродит, — рассказали авторы. — Найдёт один похожий след и потратит 20 запросов, а потом выясняется — это был тупик».

Budget Tracker: лёгкая версия для умных

Исследователи начали с простого решения — инструмента Budget Tracker. Думайте о нём как о спидометре для ресурсов: агент видит, сколько «топлива» у него осталось, и может менять стратегию на лету. Вообще, ничего сложного — всё работает прямо в промптах, без переобучения модели.

В реализации Google трекер подсказывает агенту рекомендации в зависимости от ситуации и показывает в каждом шаге: сколько уже потрачено, сколько осталось. Простая идея, но она работает.

Чтобы проверить это, провели эксперименты с двумя подходами: последовательное (агент шаг за шагом улучшает результат) и параллельное (несколько независимых попыток, потом лучший результат). Тестировали на агентах, которые ищут информацию и просматривают сайты, используя метод ReAct (модель чередует размышления с действиями). Результаты проверяли на датасетах BrowseComp и HLE-Search с помощью моделей вроде Gemini 2.5 Pro, Gemini 2.5 Flash и Claude Sonnet 4.

И вот что произошло: добавив Budget Tracker, получили той же точности результаты, но с меньшими затратами. На 40% меньше поисковых запросов. На 20% меньше просмотров страниц. Общая стоимость упала на 31%. Плюс — трекер продолжал масштабироваться с увеличением бюджета, а обычный ReAct просто плато на каком-то уровне.

BATS: серьёзный инструмент для серьёзных задач

Потом учёные пошли дальше и создали BATS (Budget Aware Test-time Scaling) — фреймворк для максимизации результатов при любом бюджете. Работает как личный финансовый советник агента: постоянно отслеживает остаток и корректирует действия.

В BATS несколько модулей. Модуль планирования решает: сколько «энергии» потратить на каждый шаг. Модуль проверки решает: копать глубже в текущую идею или рискнуть, перейти на новый путь? Всё зависит от оставшихся ресурсов.

Вот как это работает: сначала планирование составляет план и выбирает инструменты. Инструменты отвечают — результаты добавляются в контекст. Потом проверка смотрит: ответ хороший? Если да — может быть, ещё поискать, если бюджет позволяет. Если нет — новая попытка. Когда деньги кончаются, LLM выбирает лучший из полученных ответов.

На тестировании данные впечатляют. На BrowseComp с Gemini 2.5 Pro получилось 24.6% точности против 12.6% у обычного ReAct. На HLE-Search — 27% против 20.5%. А главное — дешевле. На том же BrowseComp BATS достигал результата за 23 цента, когда параллельный метод требовал 50 центов.

«Это открывает возможность для сложных задач, — говорят авторы. — Поддержка кодовых базисов, аналитика конкурентов, проверки соответствия, анализ документов. То, что раньше было слишком дорого».

Почему это важно прямо сейчас

Для компаний, которые хотят запустить AI-агентов — это переворот. Экономика и логика рассуждений теперь неразделимы. Модель должна понимать не только что найти, но и сколько это стоит. И вот теперь это возможно.

Технологии, которые делают AI практичным и экономичным — это то, что нам нужно отслеживать. Новые фреймворки, инструменты и исследования в этой области появляются буквально каждую неделю.🔔 Чтобы узнать больше о бюджетировании AI, оптимизации расходов и следить за самыми свежими открытиями в мире искусственного интеллекта, подпишитесь на канал «ProAI» в Telegram!