2 подписчика

Сравнение RAG подходов для образовательных LLM

13 сентября 202513 сен 2025

7 мин

Проблематика и контекст исследования Исследователи выявили критические проблемы использования больших языковых моделей в классах: Проблема галлюцинаций и устаревшей информации: Проблема несоответствия образовательным целям: Принцип работы: Технические характеристики: Принцип работы: Два режима работы: GraphRAG Local: GraphRAG Global: Ресурсные затраты GraphRAG: Общие характеристики: Детальная композиция по предметам: ПредметИсточникиСловаSpecific QSectional QThematic QЛитератураMoby-Dick, Little Women397,1486798040История6 исторических текстов384,1367137738Компьютерные науки7 технических монографий402,0556647235НаукаУчебник микробиологии397,9946788020 Specific Questions (Конкретные вопросы): Sectional Questions (Секционные вопросы): Thematic Questions (Тематические вопросы): 6-этапный процесс: Критерии оценки: Ключевые результаты по win rates: GraphRAG Global доминирует в широких запросах: OpenAI RAG превосходит в конкретных запросах: GraphRAG Local как компетентный мост: Экспериментал

Оглавление

Основные проблемы LLM в образовании
Методология сравнения RAG подходов
Vector Search RAG (представитель: OpenAI Vector Search)

Проблематика и контекст исследования

Основные проблемы LLM в образовании

Исследователи выявили критические проблемы использования больших языковых моделей в классах:

Проблема галлюцинаций и устаревшей информации:

LLM часто генерируют фабрикованный или неточный контент
Модели обучены на интернет-данных масштабного характера, что может вносить противоречащие или запутывающие детали
Знания модели могут быть устаревшими - учебные программы периодически обновляются, факты и методологии изменяются

Проблема несоответствия образовательным целям:

Ответы часто не соответствуют стандартам учебной программы
Отсутствие связности с конкретным курсом обучения
Сложность адаптации к специфическим образовательным дисциплинам

Методология сравнения RAG подходов

Vector Search RAG (представитель: OpenAI Vector Search)

Принцип работы:

Разбивает документы на фрагменты (chunks) и создает векторные представления через нейронные эмбеддинги
Пользовательский запрос также эмбеддится в векторное пространство
Система находит семантически наиболее похожие фрагменты и передает их в LLM вместе с запросом

Технические характеристики:

Скорость индексации: 11.43 секунды в среднем на предмет
Время ответа на запрос: 4.71 секунды
Нулевые дополнительные LLM вызовы во время индексации (эмбеддинги обрабатываются внутренней инфраструктурой OpenAI)

Graph Search RAG (представитель: Microsoft GraphRAG)

Принцип работы:

LLM анализирует документы и создает структурированный граф знаний
Идентифицирует ключевые сущности (люди, места, концепции) как узлы
Строит связи между сущностями как рёбра графа
Создает резюме для кластеров связанных сущностей

Два режима работы:

GraphRAG Local:

Выполняет поиск в локальных подграфах, сосредоточенных на узлах
Использует резюме непосредственного сообщества узлов
Оптимизирован для точности и контекстной чувствительности

GraphRAG Global:

Агрегирует резюме всех сообществ, охватывая всю структуру знаний документа
Использует map-reduce процесс для синтеза информации из множественных источников
Оптимизирован для широкого охвата и педагогически богатых ответов

Ресурсные затраты GraphRAG:

Индексация: 2,142.22 секунды и 4,025.25 LLM вызовов в среднем
Время запроса: 36.50 секунд (Local), 70.12 секунд (Global)
В 10-20 раз больше ресурсов по сравнению с vector search

Датасет EduScopeQA: Инновационный подход к оценке

Структура и масштаб

Общие характеристики:

3,176 вопросно-ответных пар
2.1 миллиона токенов (≈ 500,000 токенов на предмет)
4 академические дисциплины: История, Литература, Наука, Компьютерные науки

Детальная композиция по предметам:

ПредметИсточникиСловаSpecific QSectional QThematic QЛитератураMoby-Dick, Little Women397,1486798040История6 исторических текстов384,1367137738Компьютерные науки7 технических монографий402,0556647235НаукаУчебник микробиологии397,9946788020

Трехуровневая категоризация вопросов

Specific Questions (Конкретные вопросы):

Узкие вопросы, отвечаемые одним параграфом (≈ 500 слов)
Фокус на конкретных фактах или определениях
Пример: "Какие рода почвенных бактерий участвуют в процессе денитрификации?"

Sectional Questions (Секционные вопросы):

Требуют агрегации информации из множественных параграфов (уровень главы)
Пример: "Как подход президента Вильсона к переговорам повлиял на Парижскую мирную конференцию?"

Thematic Questions (Тематические вопросы):

Широкие вопросы, связанные с перекрестными концепциями
Требуют понимания всего текста, рассуждений над десятками тысяч слов
Пример из "Моби Дика": "Что представляет собой Часовня китобоев?"

Процедура генерации вопросов

6-этапный процесс:

Chunking/Sectioning: Разбивка текстов на фрагменты и группировка в секции
Content Screening: GPT-4.1 фильтрует нерелевантный контент
Hierarchical Summarization: Рекурсивное создание резюме на разных уровнях
Specific/Sectional Generation: Генерация вопросов с контекстным пониманием
Thematic Generation: Создание вопросов по глобальным темам
Filtering and Review: Финальная фильтрация тривиальных вопросов

Результаты экспериментов

Case Study 1: Анализ по критериям и типам вопросов

Критерии оценки:

Comprehensiveness: Полнота охвата всех аспектов вопроса
Directness: Краткость и прямота ответа без лишних отступлений
Faithfulness: Верность истинным фактам
Learnability: Педагогическая ценность для обучения

Ключевые результаты по win rates:

GraphRAG Global доминирует в широких запросах:

Comprehensiveness: 65.0-89.9% во всех предметах и типах вопросов
Learnability: 77.5-99.4% в секционных и тематических вопросах
Многохоповый поиск эффективно синтезирует рассеянную информацию

OpenAI RAG превосходит в конкретных запросах:

Directness: 60.0-87.5% для конкретных вопросов
Faithfulness: 59.9-81.5% для конкретных фактологических запросов
Оптимален для "флеш-карточных" применений и быстрого поиска фактов

GraphRAG Local как компетентный мост:

Превосходит OpenAI RAG по педагогическим критериям
Превосходит GraphRAG Global по directness в конкретных вопросах
Более полные ответы для вопросов, охватывающих несколько параграфов

Case Study 2: Тестирование на модифицированных учебниках (KnowShiftQA)

Экспериментальные условия:

KnowShiftQA датасет: 3,005 QA пар с систематически измененными фактами
Три режима: Short-Retrieval (315 слов), Medium-Retrieval (9.5K слов), Full-Retrieval (полный учебник)
Цель: Тестирование способности приоритизировать предоставленный материал над внутренними знаниями LLM

Основные выводы:arxiv

GraphRAG Local для больших, плотных корпусов:

Превосходная производительность в полном поиске, особенно в больших учебниках (Биология - 258K слов, История - 146K, География - 165K)
Локальная структура графа эффективно идентифицирует точную фактологическую информацию среди больших объемов потенциально отвлекающего контента

OpenAI RAG в меньших корпусах:

В меньших текстах (Химия - 77K слов, Физика - 68K слов) соответствует или слегка превосходит GraphRAG Local
При уменьшенном размере корпуса точность vector retrieval эффективно компенсирует отсутствие структурированных многохоповых возможностей

Dynamic Branching Framework: Routing System

Концепция и реализация

Принцип работы:

Легковесная система маршрутизации на основе первичного GPT-4.1-Nano вызова
Анализирует сложность, охват и размер корпуса входящих запросов
Направляет к оптимальной системе поиска на основе описания сильных сторон каждой системы

Критерии маршрутизации:

Complexity: Сложность вопроса
Scope: Охват необходимой информации
Corpus Size: Размер корпуса документов

Результаты Branching System

Case Study 1 результаты:

КритерийOpenAI RAGGraphRAG LocalGraphRAG GlobalComprehensiveness72.4%67.6%37.0%Directness39.2%84.0%66.1%Faithfulness68.5%79.8%60.2%Learnability80.1%74.3%33.4%

Ключевые преимущества:

Наивысшие показатели faithfulness среди всех отдельных систем
Способность использовать OpenAI RAG для конкретных запросов и GraphRAG Global для широких вопросов
Избегает крайних слабостей каждой системы

Ресурсные затраты Branching System:

Case Study 1: 1,378.11 сек индексации, 2,582.04 LLM вызовов, 44.94 сек запроса
Case Study 2: 360.01 сек индексации, 676.07 LLM вызовов, 14.11 сек запроса
Существенно ниже чистой GraphRAG системы, но выше чистой OpenAI RAG

Практические рекомендации и выводы

Оптимальные сценарии использования

OpenAI Vector Search RAG:

Идеально для: Быстрого поиска фактов, глоссариев, "флеш-карточных" приложений
Преимущества: Низкая латентность, простота настройки, минимальные ресурсы
Сценарии: Индивидуальные быстрые ответы студентам, встраивание в общие чат-боты

GraphRAG Global:

Идеально для: Эссе-подсказок, семинарских дискуссий, глубокого концептуального понимания
Преимущества: Наиболее связные, выровненные с учебной программой нарративы
Сценарии: Поддержка дискуссий, объяснение широких тем, педагогически богатые ответы

GraphRAG Local:

Идеально для: Больших, эволюционирующих учебников, банков вопросов, множественного выбора
Преимущества: Точность и контекстная чувствительность, строгое соответствие предоставленному материалу
Сценарии: Обеспечение соответствия последним стандартам учебной программы

Экономические соображения

Стратегии оптимизации затрат:

Амортизация затрат: Переиспользование индексированных корпусов между учебными группами
Индексация в нерабочее время: Снижение нагрузки в пиковые часы
Долгосрочное использование: Оправдание высоких начальных затрат GraphRAG при длительном использовании

Ограничения и направления будущих исследований

Текущие ограничения:

Оценка только текстовых материалов
Необходимость пилотных исследований в реальных классах
Требуется более робастный механизм маршрутизации

Будущие направления:

Мультимодальные RAG конвейеры для образовательных изображений и видео
Совместные исследования с учителями и студентами
Валидация соответствия реальным образовательным результатам

Заключение

Исследование представляет первое комплексное сравнение vector-based и graph-based RAG методов в образовательном контексте. Ключевой вклад заключается в демонстрации того, что не существует универсального решения - каждый подход имеет свои оптимальные применения в зависимости от типа вопроса, размера корпуса и образовательных целей.

Dynamic branching framework показывает перспективный путь для практического развертывания, позволяя интеллектуально маршрутизировать запросы к оптимальной системе поиска, тем самым максимизируя точность при минимизации вычислительных затрат.

Работа закладывает фундамент для будущих исследований в области применения RAG-дополненных LLM в образовании, обеспечивая практические руководства для педагогов и системных разработчиков.