Cache-Augmented Generation: когда retrieval не нужен Недавно наткнулся на исследование про Cache-Augmented Generation (CAG) - альтернативу RAG которая может быть эффективнее в определенных случаях Классический RAG workflow: 1. Получили запрос пользователя 2. Ищем релевантные документы в векторной базе 3. Добавляем найденное к промпту 4. Отправляем в LLM CAG подход: 1. Заранее загружаем все документы в контекст модели 2. Кэшируем состояние (KV-cache) 3. На запрос пользователя сразу отвечаем - retrieval не нужен Когда CAG лучше RAG: - Небольшая стабильная база знаний (умещается в context window) - Нужна низкая задержка ответа - Документы редко обновляются - Важна консистентность между запросами Когда RAG все еще нужен: - Огромная база данных (больше контекстного окна) - Частые обновления контента - Нужны ссылки на источники В исследовании CAG показал лучшую производительность на задачах вопрос-ответ при сопоставимой точности Особенно интересно для внутренних баз знаний - загрузил