В наивной реализации нейросеть читает чат каждый раз заново и прогоняет через видеокарту всю историю диалога – хотя от запроса к запросу старые реплики не менялись. Для оптимизации провайдеры придумали кэширование – оно позволяет посчитать этот кусок однажды и дальше подставлять готовым. У Anthropic, например, чтение из кэша стоит раз в десять дешевле обычного, плюс ответ приходит быстрее. К сожалению, лекарство неполное. Кэш живёт в памяти видеокарты, а её мало и она дорогая, поэтому под нагрузкой старые куски вытесняются и всё опять считается заново. Есть и привязка ко времени – отошёл человек от чата на час, вернулся, а контекст уже протух. В итоге глобально проблема никуда не делась – её просто немного сгладили. Идея #стартапдня Tensormesh – не выбрасывать посчитанное, когда в видеопамяти кончается место, а сгружать кэш ниже: в обычную оперативную память, на SSD, в сетевое хранилище. Заодно он становится общим для всех видеокарт разом. Готовый кусок тогда переживает и вытеснение,