Найти в Дзене
ontorag

Сравнение RAG подходов для образовательных LLM

Проблематика и контекст исследования Исследователи выявили критические проблемы использования больших языковых моделей в классах: Проблема галлюцинаций и устаревшей информации: Проблема несоответствия образовательным целям: Принцип работы: Технические характеристики: Принцип работы: Два режима работы: GraphRAG Local: GraphRAG Global: Ресурсные затраты GraphRAG: Общие характеристики: Детальная композиция по предметам: ПредметИсточникиСловаSpecific QSectional QThematic QЛитератураMoby-Dick, Little Women397,1486798040История6 исторических текстов384,1367137738Компьютерные науки7 технических монографий402,0556647235НаукаУчебник микробиологии397,9946788020 Specific Questions (Конкретные вопросы): Sectional Questions (Секционные вопросы): Thematic Questions (Тематические вопросы): 6-этапный процесс: Критерии оценки: Ключевые результаты по win rates: GraphRAG Global доминирует в широких запросах: OpenAI RAG превосходит в конкретных запросах: GraphRAG Local как компетентный мост: Экспериментал
Оглавление

Проблематика и контекст исследования

Основные проблемы LLM в образовании

Исследователи выявили критические проблемы использования больших языковых моделей в классах:

Проблема галлюцинаций и устаревшей информации:

  • LLM часто генерируют фабрикованный или неточный контент
  • Модели обучены на интернет-данных масштабного характера, что может вносить противоречащие или запутывающие детали
  • Знания модели могут быть устаревшими - учебные программы периодически обновляются, факты и методологии изменяются

Проблема несоответствия образовательным целям:

  • Ответы часто не соответствуют стандартам учебной программы
  • Отсутствие связности с конкретным курсом обучения
  • Сложность адаптации к специфическим образовательным дисциплинам

Методология сравнения RAG подходов

Vector Search RAG (представитель: OpenAI Vector Search)

Принцип работы:

  • Разбивает документы на фрагменты (chunks) и создает векторные представления через нейронные эмбеддинги
  • Пользовательский запрос также эмбеддится в векторное пространство
  • Система находит семантически наиболее похожие фрагменты и передает их в LLM вместе с запросом

Технические характеристики:

  • Скорость индексации: 11.43 секунды в среднем на предмет
  • Время ответа на запрос: 4.71 секунды
  • Нулевые дополнительные LLM вызовы во время индексации (эмбеддинги обрабатываются внутренней инфраструктурой OpenAI)

Graph Search RAG (представитель: Microsoft GraphRAG)

Принцип работы:

  • LLM анализирует документы и создает структурированный граф знаний
  • Идентифицирует ключевые сущности (люди, места, концепции) как узлы
  • Строит связи между сущностями как рёбра графа
  • Создает резюме для кластеров связанных сущностей

Два режима работы:

GraphRAG Local:

  • Выполняет поиск в локальных подграфах, сосредоточенных на узлах
  • Использует резюме непосредственного сообщества узлов
  • Оптимизирован для точности и контекстной чувствительности

GraphRAG Global:

  • Агрегирует резюме всех сообществ, охватывая всю структуру знаний документа
  • Использует map-reduce процесс для синтеза информации из множественных источников
  • Оптимизирован для широкого охвата и педагогически богатых ответов

Ресурсные затраты GraphRAG:

  • Индексация: 2,142.22 секунды и 4,025.25 LLM вызовов в среднем
  • Время запроса: 36.50 секунд (Local), 70.12 секунд (Global)
  • В 10-20 раз больше ресурсов по сравнению с vector search

Датасет EduScopeQA: Инновационный подход к оценке

Структура и масштаб

Общие характеристики:

  • 3,176 вопросно-ответных пар
  • 2.1 миллиона токенов (≈ 500,000 токенов на предмет)
  • 4 академические дисциплины: История, Литература, Наука, Компьютерные науки

Детальная композиция по предметам:

ПредметИсточникиСловаSpecific QSectional QThematic QЛитератураMoby-Dick, Little Women397,1486798040История6 исторических текстов384,1367137738Компьютерные науки7 технических монографий402,0556647235НаукаУчебник микробиологии397,9946788020

Трехуровневая категоризация вопросов

Specific Questions (Конкретные вопросы):

  • Узкие вопросы, отвечаемые одним параграфом (≈ 500 слов)
  • Фокус на конкретных фактах или определениях
  • Пример: "Какие рода почвенных бактерий участвуют в процессе денитрификации?"

Sectional Questions (Секционные вопросы):

  • Требуют агрегации информации из множественных параграфов (уровень главы)
  • Пример: "Как подход президента Вильсона к переговорам повлиял на Парижскую мирную конференцию?"

Thematic Questions (Тематические вопросы):

  • Широкие вопросы, связанные с перекрестными концепциями
  • Требуют понимания всего текста, рассуждений над десятками тысяч слов
  • Пример из "Моби Дика": "Что представляет собой Часовня китобоев?"

Процедура генерации вопросов

6-этапный процесс:

  1. Chunking/Sectioning: Разбивка текстов на фрагменты и группировка в секции
  2. Content Screening: GPT-4.1 фильтрует нерелевантный контент
  3. Hierarchical Summarization: Рекурсивное создание резюме на разных уровнях
  4. Specific/Sectional Generation: Генерация вопросов с контекстным пониманием
  5. Thematic Generation: Создание вопросов по глобальным темам
  6. Filtering and Review: Финальная фильтрация тривиальных вопросов

Результаты экспериментов

Case Study 1: Анализ по критериям и типам вопросов

Критерии оценки:

  • Comprehensiveness: Полнота охвата всех аспектов вопроса
  • Directness: Краткость и прямота ответа без лишних отступлений
  • Faithfulness: Верность истинным фактам
  • Learnability: Педагогическая ценность для обучения

Ключевые результаты по win rates:

GraphRAG Global доминирует в широких запросах:

  • Comprehensiveness: 65.0-89.9% во всех предметах и типах вопросов
  • Learnability: 77.5-99.4% в секционных и тематических вопросах
  • Многохоповый поиск эффективно синтезирует рассеянную информацию

OpenAI RAG превосходит в конкретных запросах:

  • Directness: 60.0-87.5% для конкретных вопросов
  • Faithfulness: 59.9-81.5% для конкретных фактологических запросов
  • Оптимален для "флеш-карточных" применений и быстрого поиска фактов

GraphRAG Local как компетентный мост:

  • Превосходит OpenAI RAG по педагогическим критериям
  • Превосходит GraphRAG Global по directness в конкретных вопросах
  • Более полные ответы для вопросов, охватывающих несколько параграфов

Case Study 2: Тестирование на модифицированных учебниках (KnowShiftQA)

Экспериментальные условия:

  • KnowShiftQA датасет: 3,005 QA пар с систематически измененными фактами
  • Три режима: Short-Retrieval (315 слов), Medium-Retrieval (9.5K слов), Full-Retrieval (полный учебник)
  • Цель: Тестирование способности приоритизировать предоставленный материал над внутренними знаниями LLM

Основные выводы:arxiv

GraphRAG Local для больших, плотных корпусов:

  • Превосходная производительность в полном поиске, особенно в больших учебниках (Биология - 258K слов, История - 146K, География - 165K)
  • Локальная структура графа эффективно идентифицирует точную фактологическую информацию среди больших объемов потенциально отвлекающего контента

OpenAI RAG в меньших корпусах:

  • В меньших текстах (Химия - 77K слов, Физика - 68K слов) соответствует или слегка превосходит GraphRAG Local
  • При уменьшенном размере корпуса точность vector retrieval эффективно компенсирует отсутствие структурированных многохоповых возможностей

Dynamic Branching Framework: Routing System

Концепция и реализация

Принцип работы:

  • Легковесная система маршрутизации на основе первичного GPT-4.1-Nano вызова
  • Анализирует сложность, охват и размер корпуса входящих запросов
  • Направляет к оптимальной системе поиска на основе описания сильных сторон каждой системы

Критерии маршрутизации:

  • Complexity: Сложность вопроса
  • Scope: Охват необходимой информации
  • Corpus Size: Размер корпуса документов

Результаты Branching System

Case Study 1 результаты:

КритерийOpenAI RAGGraphRAG LocalGraphRAG GlobalComprehensiveness72.4%67.6%37.0%Directness39.2%84.0%66.1%Faithfulness68.5%79.8%60.2%Learnability80.1%74.3%33.4%

Ключевые преимущества:

  • Наивысшие показатели faithfulness среди всех отдельных систем
  • Способность использовать OpenAI RAG для конкретных запросов и GraphRAG Global для широких вопросов
  • Избегает крайних слабостей каждой системы

Ресурсные затраты Branching System:

  • Case Study 1: 1,378.11 сек индексации, 2,582.04 LLM вызовов, 44.94 сек запроса
  • Case Study 2: 360.01 сек индексации, 676.07 LLM вызовов, 14.11 сек запроса
  • Существенно ниже чистой GraphRAG системы, но выше чистой OpenAI RAG

Практические рекомендации и выводы

Оптимальные сценарии использования

OpenAI Vector Search RAG:

  • Идеально для: Быстрого поиска фактов, глоссариев, "флеш-карточных" приложений
  • Преимущества: Низкая латентность, простота настройки, минимальные ресурсы
  • Сценарии: Индивидуальные быстрые ответы студентам, встраивание в общие чат-боты

GraphRAG Global:

  • Идеально для: Эссе-подсказок, семинарских дискуссий, глубокого концептуального понимания
  • Преимущества: Наиболее связные, выровненные с учебной программой нарративы
  • Сценарии: Поддержка дискуссий, объяснение широких тем, педагогически богатые ответы

GraphRAG Local:

  • Идеально для: Больших, эволюционирующих учебников, банков вопросов, множественного выбора
  • Преимущества: Точность и контекстная чувствительность, строгое соответствие предоставленному материалу
  • Сценарии: Обеспечение соответствия последним стандартам учебной программы

Экономические соображения

Стратегии оптимизации затрат:

  • Амортизация затрат: Переиспользование индексированных корпусов между учебными группами
  • Индексация в нерабочее время: Снижение нагрузки в пиковые часы
  • Долгосрочное использование: Оправдание высоких начальных затрат GraphRAG при длительном использовании

Ограничения и направления будущих исследований

Текущие ограничения:

  • Оценка только текстовых материалов
  • Необходимость пилотных исследований в реальных классах
  • Требуется более робастный механизм маршрутизации

Будущие направления:

  • Мультимодальные RAG конвейеры для образовательных изображений и видео
  • Совместные исследования с учителями и студентами
  • Валидация соответствия реальным образовательным результатам

Заключение

Исследование представляет первое комплексное сравнение vector-based и graph-based RAG методов в образовательном контексте. Ключевой вклад заключается в демонстрации того, что не существует универсального решения - каждый подход имеет свои оптимальные применения в зависимости от типа вопроса, размера корпуса и образовательных целей.

Dynamic branching framework показывает перспективный путь для практического развертывания, позволяя интеллектуально маршрутизировать запросы к оптимальной системе поиска, тем самым максимизируя точность при минимизации вычислительных затрат.

Работа закладывает фундамент для будущих исследований в области применения RAG-дополненных LLM в образовании, обеспечивая практические руководства для педагогов и системных разработчиков.