Найти в Дзене

Как работает память ИИ? Это на примере Sonnet 4.5 в Cloud Code, но тоже самое для любой модели

Как работает память ИИ? Это на примере Sonnet 4.5 в Cloud Code, но тоже самое для любой модели. На картинке дамп памяти. Объяснение. Всего использовано 194k/200k tokens (97% — использовано почти всё доступное пространство контекста) , включая: System prompt: 2.2k tokens (1.1%) System tools: 13.0k tokens (6.5%) SlashCommand Tool · 8 commands └ Total: 2.1k tokens Custom agents · /agents └ sec24 (User): 18 tokens └ sec25 (User): 15 tokens Messages: 133.9k tokens (66.9%) Free space: 6k (3.0%) Autocompact buffer: 45.0k tokens (22.5%) Распределение токенов: Категория Токены % Что это System prompt 2.2k 1.1% Системные инструкции для Claude System tools 13.0k 6.5% Описания всех инструментов (Read, Write, Bash, etc.) Custom agents 33 0.0% Ваши кастомные агенты (sec24, sec25) Messages 133.9k 66.9% 💬 Вся история диалога (самая большая часть!) Free space 6k 3.0% 🟢 Свободное место Autocompact buffer 45.0k 22.5% 📦 Буфер для сжатия Что это означает: Контекст почти заполнен — осталось только

Как работает память ИИ? Это на примере Sonnet 4.5 в Cloud Code, но тоже самое для любой модели. На картинке дамп памяти.

Объяснение.

Всего использовано 194k/200k tokens (97% — использовано почти всё доступное пространство контекста) , включая:

System prompt: 2.2k tokens (1.1%)

System tools: 13.0k tokens (6.5%)

SlashCommand Tool · 8 commands

└ Total: 2.1k tokens

Custom agents · /agents

└ sec24 (User): 18 tokens

└ sec25 (User): 15 tokens

Messages: 133.9k tokens (66.9%)

Free space: 6k (3.0%)

Autocompact buffer: 45.0k tokens (22.5%)

Распределение токенов:

Категория Токены % Что это

System prompt 2.2k 1.1% Системные инструкции для Claude

System tools 13.0k 6.5% Описания всех инструментов (Read, Write, Bash, etc.)

Custom agents 33 0.0% Ваши кастомные агенты (sec24, sec25)

Messages 133.9k 66.9% 💬 Вся история диалога (самая большая часть!)

Free space 6k 3.0% 🟢 Свободное место

Autocompact buffer 45.0k 22.5% 📦 Буфер для сжатия

Что это означает:

Контекст почти заполнен — осталось только 3% свободного места (6k токенов)

Скоро произойдет autocompact — система автоматически "сожмет" старые сообщения в краткий summary, чтобы освободить место для новых

66.9% занимают сообщения — вся наша долгая беседа (перевод фреймворка, создание структуры, коммиты и т.д.)

22.5% зарезервировано — буфер для автокомпакта, чтобы процесс прошел плавно

Рекомендации:

Всё в порядке! Autocompact произойдет автоматически

Можете продолжать работу

После компакта старые сообщения будут сжаты, но контекст останется

Критичная информация (последние действия) сохранится

Простыми словами: Мы много поработали, память почти заполнена, но система сама освободит место, когда понадобится 👍

Как работает контекст?

При каждом вашем сообщении отправляется:

System prompt (2.2k токенов)

Базовые инструкции "Ты Claude Code, помогаешь с разработкой..."

Правила работы с инструментами

Политики безопасности

System tools (13k токенов)

Описания ВСЕХ инструментов: Read, Write, Edit, Bash, Grep, Glob, TodoWrite, Task, WebFetch и т.д.

Их параметры, примеры использования

Это нужно, чтобы модель знала, какие инструменты доступны

Custom agents + slash commands (2.1k токенов)

Ваши /security, /test, /feature и другие

Определения кастомных агентов sec24, sec25

Messages (133.9k токенов)

ВСЯ история нашего диалога

Все ваши сообщения

Все мои ответы

Все результаты вызовов инструментов (file reads, bash outputs, etc.)

Почему так?

API модели stateless — у неё нет "памяти" между запросами. Каждый раз она получает весь контекст заново и генерирует ответ с нуля, но есть оптимизации!

Prompt Caching (от Anthropic):

Неизменяемые части (system prompt, tools) кэшируются

За них не платите повторно (или платите значительно меньше)

Обновляются только когда меняются

Пример: Запрос 1:

System (2.2k) — ПОЛНАЯ ЦЕНА

Tools (13k) — ПОЛНАЯ ЦЕНА

Messages (10k) — ПОЛНАЯ ЦЕНА Итого: 25.2k токенов

Запрос 2:

System (2.2k) — ИЗ КЭША (дешево!)

Tools (13k) — ИЗ КЭША (дешево!)

Messages (20k) — ПОЛНАЯ ЦЕНА (новые сообщения) Итого: ~20k по полной цене + 15.2k из кэша

Autocompact

Когда контекст заполняется: [Старые сообщения 1-50] → [SUMMARY: "Обсудили архитектуру..."] [Новые сообщения 51-100] → остаются полностью. Это освобождает место, но сохраняет суть.

В цифрах для нашей сессии:

Каждый ваш новый запрос отправляет ~194k токенов Из них:

~15k (system+tools) — кэшируются

~134k (messages) — платите каждый раз

Вывод: Да, весь контекст идёт каждый раз, но благодаря кэшированию это не так дорого, как кажется! 💡

P.S. Это стандартная архитектура для всех чат-моделей (ChatGPT, Claude, и т.д.) — они все stateless и работают так же.