145 подписчиков

RAG и зачем он нужен

25 марта 202525 мар 2025

7 мин

Статья рассказывает, как использовать внешние знания (базы данных, документы, интернет-ресурсы) совместно с языковой моделью (LLM) для генерации более точных и актуальных ответов. Разберём основные концепции по порядку. Большие языковые модели (LLM), например ChatGPT или Claude, обучаются на больших корпусах данных, но их знания могут: Идея RAG в том, чтобы в момент запроса «докармливать» модель внешней информацией, извлечённой из сторонних источников (текстовых баз данных, поисковиков, корпоративных документов). Это позволяет модели отвечать точнее и актуальнее, опираясь не только на внутренние параметры, но и на «дополнительные свежие знания». Подходы к RAG эволюционировали и выделяются три стадии/парадигмы: Вывод: Модульный RAG — наиболее продвинутая архитектура, которая продолжает улучшать точность, гибкость и расширяет сферу применения. Три основных способа «прокачать» LLM: Общее сравнение: Эти методы не взаимоисключающие. Часто их комбинируют, например: Таким образом, основная ид

Оглавление

1. Зачем нужен RAG
2. Три парадигмы RAG
3. Дополнительные пояснения к этапам

1. Зачем нужен RAG

Большие языковые модели (LLM), например ChatGPT или Claude, обучаются на больших корпусах данных, но их знания могут:

Быстро устаревать (они не знают самых свежих фактов, произошедших после окончания обучения).
Быть неполными (любая модель имеет лимиты в охвате тем и объёмах данных).
Приводить к «галлюцинациям» (нейросеть иногда уверенно выдумывает несуществующие факты).

Идея RAG в том, чтобы в момент запроса «докармливать» модель внешней информацией, извлечённой из сторонних источников (текстовых баз данных, поисковиков, корпоративных документов). Это позволяет модели отвечать точнее и актуальнее, опираясь не только на внутренние параметры, но и на «дополнительные свежие знания».

2. Три парадигмы RAG

Подходы к RAG эволюционировали и выделяются три стадии/парадигмы:

Наивный RAG (Naive RAG)
Состоит из трёх основных этапов:
Индексирование (Indexing)
- Сырые данные (PDF, HTML, Word и пр.) приводятся к единому текстовому формату.
- Текст разбивается на фрагменты (чанки).
- Каждый чанк кодируется в вектор (эмбеддинг) и сохраняется в векторную базу данных.
Извлечение (Retrieval)
- Пользовательский запрос тоже кодируется в вектор.
- Система ищет самые «похожие» чанки (top-K) по косинусному или другому мерилу сходства.
Генерация (Generation)
- Языковая модель получает сам запрос + извлечённые чанки и формирует итоговый ответ.
Плюсы: простая реализация, уже даёт улучшение точности против «голой» LLM.
Минусы: фиксированная последовательность «Найти → Прочитать», без тонкой настройки этапов; возможны неточности при поиске, перегрузка модели большим количеством данных, не учитываются дополнительные оптимизации.
Продвинутый RAG (Advanced RAG)
Поверх простой схемы «ищем и генерируем» добавляются дополнительные «предпоисковые» (pre-retrieval) и «постпоисковые» (post-retrieval) стратегии.
Предпоисковые оптимизации:
- Улучшение структуры индексов (например, более тщательно нарезать текст на чанки).
- Обогащение исходных данных метаданными (дата, автор, тема).
- Переформулирование запроса (query rewriting) для более качественного поиска.
Постпоисковые оптимизации:
- Реранжирование фрагментов (пересортировка уже найденных чанков, чтобы самые полезные оказались в начале).
- Сжатие данных: если чанки слишком большие, их «подчищают»/«саммаризируют» до компактного размера.
Итог: повышается точность поиска, уменьшается вероятность пропуска важных данных и сокращается нагрузка на LLM.
Модульный RAG (Modular RAG)
Переход к ещё более гибкой архитектуре, где каждый этап (поиск, сегментация, реранк и т.д.) представляет собой самостоятельный модуль, который можно менять, дорабатывать или отключать.
Пример:
- Модуль поиска может общаться напрямую с внешними поисковыми движками;
- Модуль памяти (memory module) может хранить промежуточную информацию;
- Модуль маршрутизации (routing) решает, нужен ли поиск сейчас или достаточно тех данных, что уже есть.
Особенности:
- Легче адаптировать систему под конкретную задачу.
- Можно выстраивать сложные пайплайны вроде «Сначала переформулируем запрос → проведём несколько параллельных поисков → объединим результаты → передадим в модель».
Примеры новых идей: RAG-Fusion (мультизапросный поиск), HyDE (гипотетические эмбеддинги), Self-RAG (самооценка необходимости поиска) и т. д.

Вывод: Модульный RAG — наиболее продвинутая архитектура, которая продолжает улучшать точность, гибкость и расширяет сферу применения.

3. Дополнительные пояснения к этапам

3.1. Индексирование

Зачем разбивать на чанки?
Языковые модели обычно имеют ограничение длины входного контекста (например, 4–32 тысячи токенов). Документ в 10–50 страниц может быть слишком большим. Разбиение на более мелкие части даёт возможность хранить в памяти модели только ту часть, которая действительно нужна.
Зачем эмбеддинги?
Чтобы «научить» компьютер понимать смысл, а не ключевые слова. Векторные представления позволяют искать по смысловой близости. Так мы можем найти информацию, даже если в запросе и документе используются синонимы или перефразирование.

3.2. Извлечение (поиск)

Top-K
Система обычно возвращает K фрагментов (чанков) с наибольшим сходством. Если K слишком маленькое, можно упустить важный контент; если слишком большое — в промпт попадут лишние данные и перегрузят модель.
Реранжирование и фильтрация
Иногда к топ-10 ближайшим чанкам добавляют этап «умной» пересортировки, чтобы вверху списка оказались наиболее релевантные и качественные фрагменты.

3.3. Генерация

Формирование промпта
Извлечённые чанки (или их краткое содержание) + вопрос пользователя подаются в LLM.
Контроль галлюцинаций
Чем лучше исходный поиск и чем надёжнее данные, тем меньше шансов, что модель «придумает» несуществующие факты. Хотя полностью исключить выдумку пока невозможно.

4. Сравнение RAG с другими методами оптимизации LLM

Три основных способа «прокачать» LLM:

Prompt Engineering
Минимально вторгается в саму модель: мы просто меняем/детализируем формулировку вопроса, добавляем системные инструкции и т. д.
Плюсы: без затрат на обучение, быстрый эксперимент.
Минусы: модель остаётся оторванной от внешних источников (кроме «подкладывания» текста), не обновляется сама.
Дообучение (Fine-Tuning)
Фактически тренируем саму модель дальше, чтобы она впитывала новые знания или училась специфическому стилю.
Плюсы: более глубокая интеграция знаний (модель «вспоминает» их без внешнего поиска), меньше галлюцинаций, выше точность в узких темах.
Минусы: нужны большие вычислительные ресурсы, время, качество датасета. Модель «застывает» в момент дообучения: для новых данных придётся снова перезапускать обучение.
RAG (Retrieval-Augmented Generation)
Сочетает языковую модель и поиск по внешним данным.
Плюсы: легко обновлять базу знаний, не надо обучать модель заново; объяснимая структура ответа (можно сослаться на извлечённые источники).
Минусы: чуть сложнее архитектурно (нужно настраивать векторную базу, процессы поиска), повышается задержка (LLM плюс отдельные операции поиска).

Общее сравнение:

Prompt Engineering — это «тонкая настройка вопросов» к уже имеющейся модели.
RAG — «подгружаем модель внешней базой знаний» в реальном времени.
Fine-Tuning — «заставляем модель самой выучить новую информацию».

Эти методы не взаимоисключающие. Часто их комбинируют, например:

Сначала дообучают модель под определённую область (медицина, юриспруденция),
А потом добавляют RAG, чтобы подтягивать самые свежие и специфические данные,
И применяют prompt engineering для корректного формирования запросов.

5. Ключевые преимущества и вызовы RAG

Преимущества

Актуальность: можно подключать свежие источники (например, новости, статьи), чего нет в самой модели.
Гибкость: достаточно изменить или дообновить внешнюю базу, а не заново обучать модель.
Прозрачность: можно отследить, откуда именно LLM взяла факты (какой документ и кусок текста послужил источником).

Сложности

Качество поиска: если ретривер (механизм поиска чанков) возвращает нерелевантные фрагменты, весь ответ получается ошибочным.
Перегрузка контекста: LLM может «утонуть» в слишком большом количестве чанков.
Этические аспекты: модель может вытаскивать конфиденциальные или неверные данные из внешних источников.
Задержки: дополнительные шаги (поиск, реранк, сжатие) удлиняют время ответа.

6. Итоговая логика статьи

RAG решает проблему устаревших и неполных знаний в LLM, добавляя поиск свежих или специальных данных.
Существует эволюция подходов: от простой схемы (наивный RAG) к более сложным оптимизациям (продвинутый) и гибким архитектурам (модульный).
RAG vs Fine-Tuning — это не «или-или», а два дополняющих друг друга метода. Fine-tuning полезен, когда нужно «научить» модель новым форматам или стилям, а RAG — когда требуется оперативный доступ к обширным или динамическим базам знаний.
Будущее за модульным RAG, где можно подключать разные модули (дополнительные поисковые движки, генераторы подзапросов, адаптеры для конкретных задач и пр.).

Краткий совет:

Тем, кто уже знаком с RAG и работал с LLM, эта информация покажется базовой.
Тем, кто только начинает разбираться, статья даёт целостную картину: какие бывают методы, как они устроены и чем отличаются.

Таким образом, основная идея статьи: показать, как развивался подход Retrieval-Augmented Generation, чем он отличается от альтернативных методов оптимизации LLM и почему модульная архитектура считается наиболее перспективной для создания интеллектуальных систем, способных работать с большими объёмами внешних данных и при этом выдавать осмысленные ответы.