14 подписчиков

Cache-Augmented Generation: когда retrieval не нужен

18 июля 202518 июл 2025

~1 мин

Cache-Augmented Generation: когда retrieval не нужен Недавно наткнулся на исследование про Cache-Augmented Generation (CAG) - альтернативу RAG которая может быть эффективнее в определенных случаях Классический RAG workflow: 1. Получили запрос пользователя 2. Ищем релевантные документы в векторной базе 3. Добавляем найденное к промпту 4. Отправляем в LLM CAG подход: 1. Заранее загружаем все документы в контекст модели 2. Кэшируем состояние (KV-cache) 3. На запрос пользователя сразу отвечаем - retrieval не нужен Когда CAG лучше RAG: - Небольшая стабильная база знаний (умещается в context window) - Нужна низкая задержка ответа - Документы редко обновляются - Важна консистентность между запросами Когда RAG все еще нужен: - Огромная база данных (больше контекстного окна) - Частые обновления контента - Нужны ссылки на источники В исследовании CAG показал лучшую производительность на задачах вопрос-ответ при сопоставимой точности Особенно интересно для внутренних баз знаний - загрузил

Недавно наткнулся на исследование про Cache-Augmented Generation (CAG) - альтернативу RAG которая может быть эффективнее в определенных случаях

Классический RAG workflow:

1. Получили запрос пользователя

2. Ищем релевантные документы в векторной базе

3. Добавляем найденное к промпту

4. Отправляем в LLM

CAG подход:

1. Заранее загружаем все документы в контекст модели

2. Кэшируем состояние (KV-cache)

3. На запрос пользователя сразу отвечаем - retrieval не нужен

Когда CAG лучше RAG:

- Небольшая стабильная база знаний (умещается в context window)

- Нужна низкая задержка ответа

- Документы редко обновляются

- Важна консистентность между запросами

Когда RAG все еще нужен:

- Огромная база данных (больше контекстного окна)

- Частые обновления контента

- Нужны ссылки на источники

В исследовании CAG показал лучшую производительность на задачах вопрос-ответ при сопоставимой точности

Особенно интересно для внутренних баз знаний - загрузил документацию один раз, отвечаешь быстро без поиска

Подробнее про RAG рассказывал тут