136 подписчиков

🤖 Почему ИИ-агенты расходуют в 10 раз больше ресурсов, чем обычные чат-боты

29 января29 янв

2 мин

20 января 2026 команда из Пекинского университета и Shanghai AI Lab опубликовала масштабный обзор "Toward Efficient Agents" — первое систематическое исследование того, почему агенты такие ресурсоёмкие и как это исправить. 📍 Проблема, о которой не говорят Обычный чат-бот работает линейно: вопрос → ответ. Один проход, фиксированная стоимость. Агент работает рекурсивно: на каждом шаге он должен вспомнить контекст из памяти, спланировать действия, вызвать инструменты, проанализировать результат — и повторить цикл многократно. Формула затрат: ❗️Чат-бот: стоимость × токены ❗️Агент: стоимость × токены + память + инструменты + планирование Для сложной исследовательской задачи агент может вызвать поиск 600 раз. Каждая следующая итерация использует вывод предыдущей как вход — затраты растут лавинообразно. ⚡️ Три узких горла эффективности Исследователи проанализировали 100+ работ и выделили критичные компоненты. 1️⃣ Память Агент должен помнить всю историю, но контекст растёт с каждым шаго

📍 Проблема, о которой не говорят

Обычный чат-бот работает линейно: вопрос → ответ. Один проход, фиксированная стоимость.

Агент работает рекурсивно: на каждом шаге он должен вспомнить контекст из памяти, спланировать действия, вызвать инструменты, проанализировать результат — и повторить цикл многократно.

Формула затрат:

❗️Чат-бот: стоимость × токены

❗️Агент: стоимость × токены + память + инструменты + планирование

Для сложной исследовательской задачи агент может вызвать поиск 600 раз. Каждая следующая итерация использует вывод предыдущей как вход — затраты растут лавинообразно.

⚡️ Три узких горла эффективности

Исследователи проанализировали 100+ работ и выделили критичные компоненты.

1️⃣ Память

Агент должен помнить всю историю, но контекст растёт с каждым шагом. Важная информация теряется в длинной истории.

Решение: Иерархическая память со сжатием

🔺Рабочая память (текущий контекст)

🔺Внешняя память (сжатая история)

🔺Умный поиск вместо полной загрузки

Пример: память организуется слоями — как виртуальная память в операционной системе, подгружаются только нужные фрагменты.

2️⃣ Использование инструментов

Агент может вызвать поиск сотни раз для одной задачи. Каждый вызов = задержка + токены на обработку.

Решение: Три направления оптимизации

🔺Умный выбор: не перебирать все инструменты, а фильтровать кандидатов

🔺Параллельные вызовы: выполнять несколько операций одновременно

🔺Бюджетирование: планировать вызовы заранее как задачу оптимального распределения ресурсов

3️⃣ Планирование

Перебор всех возможных действий = экспоненциальный рост затрат. Проблема усугубляется на длинных горизонтах (10+ шагов).

Решение: Контролируемое планирование

🔺Быстрое/медленное мышление: простые действия без планирования, сложные — с полным анализом

🔺Умный поиск вместо полного перебора

🔺Обучение с подкреплением с штрафом за избыточные действия

💡 Что это значит практически

Эффективность агента — это не "сделать модель меньше", а оптимизировать весь конвейер:

✅Память должна быть сжатой и быстрой

✅Инструменты — вызываться параллельно и избирательно

✅Планирование — балансировать между скоростью и качеством

Для разработчиков: используйте техники из статьи как чеклист оптимизации

Для пользователей: требуйте от агентских систем не только качества, но и эффективности

🚀 Протестируйте работу с ИИ-агентами в AI Wiz 2.0

Новая версия платформы уже доступна — переход прямо из вашего аккаунта в дашборде. Попробуйте оптимизированные агентские workflow на практике.

📄 Исследование: https://arxiv.org/abs/2601.14192

#AIWiz #AIAgents #Efficiency #Research

Гаджеты и электроника

5,73 млн интересуются