Сэкономить на токенах в 10 раз
В наивной реализации нейросеть читает чат каждый раз заново и прогоняет через видеокарту всю историю диалога – хотя от запроса к запросу старые реплики не менялись. Для оптимизации провайдеры придумали кэширование – оно позволяет посчитать этот кусок однажды и дальше подставлять готовым. У Anthropic, например, чтение из кэша стоит раз в десять дешевле обычного, плюс ответ приходит быстрее. К сожалению, лекарство неполное. Кэш живёт в памяти видеокарты, а её мало и она дорогая, поэтому под нагрузкой старые куски вытесняются и всё опять считается заново. Есть и привязка ко времени – отошёл человек от чата на час, вернулся, а контекст уже протух...