10 подписчиков

8000 токенов за одно "привет": куда утекает бюджет

16 апреля16 апр

3 мин

Ты пишешь "привет" своему AI-агенту. Он отвечает. Ты открываешь логи и видишь: 8 247 входных токенов. За приветствие. Первая реакция - должен быть баг. Я тоже сначала так думал. Бага нет. Это нормальная работа типового агента. Только "нормальной" её называет тот, кто не видел счёта за месяц. Разберу, куда уходят эти токены и как их вернуть. Что на самом деле съедает бюджет Представь библиотекаря, который к каждому читателю тащит на стойку весь справочный раздел. На всякий случай. Словари, энциклопедии, инструкции. Ровно так работает типовой AI-агент. В системный промпт запаковано всё: описания всех инструментов, все доменные правила, все роли. Модель "видит" эту кучу перед каждым ответом. Даже если пользователь спросил время. На моём первом агенте это было 60-80% всех входных токенов. Каждый вызов. Каждого пользователя. При миллионе запросов в месяц ты оплачиваешь не мышление модели - ты оплачиваешь её чтение собственной инструкции. Skills: описание сейчас, промпт потом Первое решение

Ты пишешь "привет" своему AI-агенту. Он отвечает. Ты открываешь логи и видишь: 8 247 входных токенов. За приветствие.

Первая реакция - должен быть баг. Я тоже сначала так думал. Бага нет. Это нормальная работа типового агента. Только "нормальной" её называет тот, кто не видел счёта за месяц.

Разберу, куда уходят эти токены и как их вернуть.

Что на самом деле съедает бюджет

Представь библиотекаря, который к каждому читателю тащит на стойку весь справочный раздел. На всякий случай. Словари, энциклопедии, инструкции.

Ровно так работает типовой AI-агент. В системный промпт запаковано всё: описания всех инструментов, все доменные правила, все роли. Модель "видит" эту кучу перед каждым ответом. Даже если пользователь спросил время.

На моём первом агенте это было 60-80% всех входных токенов. Каждый вызов. Каждого пользователя. При миллионе запросов в месяц ты оплачиваешь не мышление модели - ты оплачиваешь её чтение собственной инструкции.

Skills: описание сейчас, промпт потом

Первое решение подсмотрено у Anthropic. Они называют его Agent Skills - "файловая система для контекста".

Принцип простой. В сам промпт попадает не вся инструкция, а только её карточка. Имя. Строчка "когда применять". Всё. Как оглавление толстой книги - сначала видишь только заголовки глав.

Модель сканирует карточки и решает: подходит задача под этот скилл или нет. Если да - вызывает его по имени. Только в этот момент полная инструкция подтягивается в контекст. Не нужен - не грузится вообще.

Anthropic опубликовал свой бенчмарк: 150 000 токенов ужались до 2 000 на ту же задачу. В 75 раз.

Я встроил тот же механизм в Tuplet - open-source фреймворк для AI-агентов, который я поддерживаю. В демо-агенте три скилла: собрать профиль пользователя, залогировать приём пищи, проанализировать день. На холодный старт диалога - только имена и короткие описания. Полные тексты - когда модель решает, что пора.

Deferred tools: четыре инструмента по умолчанию

Скиллы срезали инструкции. Остались инструменты. А у каждого инструмента своё описание параметров - тоже не бесплатное.

Вторая часть решения - отложенная загрузка инструментов. По умолчанию агенту доступны всего четыре: спросить пользователя, вызвать под-агента, активировать скилл, поискать инструмент. Всё.

Все прикладные инструменты - поиск продуктов, запись в базу, вызов внешних API - лежат за поиском. Когда модель понимает, что нужен инструмент, она делает запрос в "каталог" и получает описание только того, что попросила. Эта схема добавляется в контекст следующего вызова.

Ту же идею описали в Speakeasy для MCP-протокола. Результат - 100-кратное сокращение токенов. Не 10%. Не 2x. Сто.

На моём демо-агенте вместе обе техники дали вот что:

Старая версия - 8 247 входных токенов
Только Skills - около 5 300
Skills плюс deferred tools - примерно 1 300

Сокращение в 6 раз. Модель та же. Возможности те же. Счёт - в разы меньше.

Почему это критично именно сейчас

У Claude и OpenAI есть кэширование повторяющихся префиксов промпта - после первого запроса префикс стоит в 10 раз дешевле. Проблема в том, что кэш работает только у них. Берёшь модель другого провайдера - кэш либо не работает, либо работает плохо. Каждая строчка системного промпта оплачивается в полную цену на каждом вызове.

И тут "ленивая загрузка" перестаёт быть техническим совершенствованием. Она становится единственным способом не сжечь бюджет при переходе с одной тестовой сессии на стабильный поток миллионов запросов.

Главный тест

Открой свои логи. Найди input_tokens на первом пользовательском сообщении в новой сессии. Больше 2 000 - у тебя есть что срезать. Больше 5 000 - ты платишь за собственную инструкцию больше, чем за саму модель.

Сколько токенов у тебя сейчас уходит на старт диалога?

#ИскусственныйИнтеллект #Программирование #IT