Дата: 25 февраля 2026
Методология: Прямой замер расхода токенов в диалоге с активным использованием рефлексии (внутренние рассуждения ИИ агента) и обращением к внешним источникам данных (векторные БД).
Инструментарий
Для проведения эксперимента мы разработали кастомную ноду Chat Model в среде автоматизации n8n. Данная нода взаимодействует напрямую с эндпоинтом Anthropic (предназначенным для обслуживания Claude Code), что обеспечило получение точных данных о расходе токенов в условиях, максимально приближенных к реальной эксплуатации сложных агентных систем.
Что мы измерили
Структура тестового запроса была спроектирована для эмуляции сложной задачи и включала следующие элементы:
- Глубокая рефлексия ИИ-агента перед ответом (многоуровневые внутренние рассуждения).
- Параллельные запросы к нескольким векторным базам данных для извлечения релевантного контекста из истории и личных записей.
- Стандартный системный промпт (~5-6к токенов).
- История из 15 последних сообщений (~7.5к токенов).
Модель: Claude Sonnet 4.6 (актуальная версия на момент тестирования).
Результаты одного сообщения:
- Общий расход: 18 500 токенов (входящие + исходящие)
- Исходящие (внутренние рассуждения + финальный ответ): 3 200 токенов
- Входящие (системный промпт + история + результаты из БД): 15 300 токенов
- Использование лимита: 8% за одно сообщение
Пересчёт в абсолютные цифры
Исходя из того, что 18 500 токенов составляют 8% от 5-часового лимита, мы можем вычислить абсолютные значения:
Общий лимит на 5 часов (входящие + исходящие):
18 500 ÷ 8 × 100 = ~231 000 токенов
Раздельно по типам трафика:
- Лимит входящих: ~217 000 токенов (94% от общего объема)
- Лимит исходящих: ~14 500 токенов (6% от общего объема)
Критическое различие архитектур: Claude Code/claude.ai против n8n
При использовании официальных интерфейсов (Claude Code и claude.ai) применяется агрессивное кэширование, кардинально меняющее профиль расхода токенов.
Как работает кэширование:
- Системный промпт и начальный контекст разговора (первые 15-20 сообщений) передаются и тарифицируются только один раз за сессию.
- Все последующие сообщения пользователя добавляются к уже захэшированному контексту. При каждой новой генерации фактически передается только свежий запрос и указатели на кэш.
В архитектуре n8n (и при стандартных прямых API-вызовах) ситуация иная:
- Системный промпт передаётся при каждой генерации заново.
- Вся история последних сообщений передаётся при каждой генерации заново.
- Каждый вызов расходует полный объем входящих токенов из лимита.
Это ключевое различие: в Claude Code одно и то же сообщение из истории может использоваться для сотен генераций, оплачиваясь единожды. В стандартной архитектуре n8n вы "платите" токенами за всю историю при каждом новом сообщении.
Что это значит на практике
Сценарий 1: Базовая интеракция (короткие вопросы, без обращений к памяти)
- Расход за сообщение: ~13-15к токенов (системный промпт + история + короткий ответ)
- Сообщений за 5 часов: 15-18
Сценарий 2: Комплексный анализ с обращением к БД (как в нашем тесте)
- Расход за сообщение: 18 500 токенов
- Сообщений за 5 часов: ~12-13
Сценарий 3: Пиковая нагрузка (максимум обращений к памяти, глубокая рефлексия)
- Расход за сообщение: может достигать 30-40к токенов
- Сообщений за 5 часов: 5-8
Влияние выбора модели
Наше тестирование проводилось на Claude Sonnet 4.6 — модели, позиционируемой Anthropic как оптимальный баланс скорости и качества. Выбор другой модели существенно влияет на расход лимита:
- Claude Opus (флагманская модель для сложных задач) потребляет значительно больше вычислительных ресурсов, что напрямую конвертируется в повышенный расход лимита. Одно сообщение на Opus может быть эквивалентно 3-4 сообщениям на Sonnet по стоимости в токенах.
- Claude Haiku (лёгкая модель) оптимизирована для скорости и экономии токенов, позволяя получить кратно больше сообщений в рамках того же лимита.
Примерная оценка: если на Sonnet 4.6 мы получили ~15-18 обычных сообщений за 5 часов, то на Opus это число снизится до 5-8, а на Haiku может возрасти до 40-50.
Главное узкое место — исходящие токены
Критическое ограничение системы — лимит на генерацию (output tokens).
- Лимит исходящих: всего 14 500 токенов на 5 часов.
- Наше тестовое сообщение использовало 3 200 исходящих токенов (22% от лимита на генерацию).
Это означает, что после 4-5 подобных глубоких ответов лимит на генерацию будет полностью исчерпан. Далее система позволит создавать только очень короткие ответы или потребует ожидания восстановления скользящего окна, даже если общий лимит входящих токенов еще далек от завершения.
Сравнение с официальными цифрами Anthropic
Anthropic заявляет ориентир в ~45 сообщений за 5 часов для Pro-тарифа.
Наши тесты показывают:
- 45 сообщений достижимы ТОЛЬКО при использовании модели Haiku в сверхкоротких диалогах с минимальным контекстом и активным кэшированием.
- При реальном использовании на Sonnet (нормальные ответы, средний контекст): 15-18 сообщений.
- При глубокой работе с памятью и инструментами на Sonnet: 10-13 сообщений.
- При максимальной нагрузке на Opus: 5-8 сообщений.
Вывод: Заявленные 45 сообщений — это маркетинговый ориентир для идеализированных условий, которые редко достигаются в реальной работе агентных систем на n8n. Фактические показатели при использовании Sonnet или Opus с полноценным контекстом в 2-3 раза ниже.
Недельный лимит и реальный объём за $20
Важно понимать структуру лимитов Anthropic. Речь идет не о фиксированном дневном лимите, а о скользящем (rolling) 5-часовом окне.
Расчет количества 5-часовых окон в неделе:
- В сутках: 24 ÷ 5 = 4.8 окон
- В неделе: 4.8 × 7 = 33.6 окон
5-часовой лимит составляет примерно 2.98% от недельного объема (поскольку окна перекрываются, фактически доступный объём за неделю — это сумма всех окон).
Реальный недельный лимит Pro-подписки:
231 000 токенов (5ч) × 33.6 = ~7 761 600 токенов в неделю
В пересчёте на стоимость ($20/мес ≈ $5/неделю):
$5 ÷ 7.76M токенов = ~$0.64 за миллион токенов
Для сравнения, API-цены Anthropic (на момент тестирования):
- Входящие: $3-8 за миллион
- Исходящие: $15-40 за миллион
Вывод: Pro-подписка предоставляет токены по цене в 5-10 раз ниже API, но накладывает жесткие ограничения по скорости потребления (не более ~230к токенов в любые 5 часов) и фактически требует использования кэширования контекста для эффективности.
Почему Pro-тарифа недостаточно для агентных архитектур на n8n
Архитектура современного ИИ-агента на n8n (с рефлексией, обращением к базам знаний и инструментам, с передачей полной истории) выходит за рамки типового сценария использования, на который рассчитан тариф Pro.
Основные факторы повышенного расхода:
- Каждое обращение к внешним инструментам добавляет результаты запросов в контекст, расходуя токены.
- Каждый цикл внутренней рефлексии — это дополнительный вызов, увеличивающий входящий трафик.
- История диалога при активной рефлексии растет стремительно.
- Отсутствие кэширования в стандартной n8n-архитектуре приводит к повторной оплате системного промпта и всей истории при каждом запросе.
В результате одно «осознанное» сообщение агента в n8n по стоимости в токенах эквивалентно 3-4 обычным пользовательским сообщениям на claude.ai, и до 10-12 сообщений при использовании модели Haiku.
Что делать, если нужно больше
Исходя из полученных данных:
- Для интерактивного общения Pro-тарифа достаточно, если не злоупотреблять глубиной контекста.
- Для автономных рефлексивных задач (множественные обращения к БД, сложные внутренние рассуждения) лимит Pro будет исчерпан за 2-3 часа.
Варианты решений для высоконагруженных сценариев:
- Переход на API: Оплата за фактически использованные токены, отсутствие скользящих лимитов, возможность реализации кэширования системного промпта и контекста.
- Тарифы с повышенными лимитами (если доступны): Расширяют 5-часовое окно пропорционально.
- Оптимизация архитектуры: Сокращение глубины используемой памяти, минимизация количества одновременных обращений к инструментам.
- Внедрение кэширования: Переход на архитектуру, поддерживающую хэширование промпта и контекста (аналогично Claude Code), если это технически реализуемо.
Итоговые цифры (шпаргалка)
ПараметрЗначениеОбщий лимит (входящие+исходящие) за 5ч~231 000 токеновЛимит входящих за 5ч~217 000 токеновЛимит исходящих за 5ч~14 500 токеновНедельный лимит (все окна)~7.76 млн токеновСредний расход на обычное сообщение (Sonnet)13-15к токеновСредний расход на сообщение с обращением к БД (Sonnet)18-25к токеновМакс. глубоких сообщений за 5ч (Sonnet)5-8Макс. обычных сообщений за 5ч (Sonnet)15-18Официальный маркетинговый ориентир (Haiku + кэш)~45Эффективная цена за миллион токенов в Pro~$0.64Цена API за миллион (входящие)$3-8Цена API за миллион (исходящие)$15-40
Примечание: Все тесты проводились 25 февраля 2026 года на модели Claude Sonnet 4.6 через кастомную ноду n8n, обращающуюся к эндпоинту Claude Code. При использовании других моделей, архитектурных подходов или при работе через официальный сайт claude.ai (с кэшированием) цифры могут значительно отличаться.