5 шагов настройки RAG на учебной платформе | Марина Погодина, PROMAREN
RAG для образования в 2026 году уже работает — но персонализированное обучение в РФ быстро превращается в юридический квест, если забыть про 152-ФЗ и белые данные. Кофе остывает, а риски — нет.
Обновлено: 8 февраля 2026
Время чтения: 12-14 минут
- Что такое RAG в образовании и почему вокруг него столько нервов
- Какие данные реально нужны для персонализации (и какие лучше не трогать)
- Как выглядит white-data архитектура RAG в 2026: без зарубежных теней
- Инструменты и rag пример: что я беру в работу, а что обхожу
- Где всё ломается: ошибки, проверки, «микротечки» 2025-2026
Февраль 2026, Москва: за окном снег, на экране — стопка документов по 152-ФЗ, и я в очередной раз ловлю себя на мысли, что персонализация в образовании ломается не на «умности» моделей.
Она ломается на источниках, согласиях и том, где физически лежат данные. Иронично: все хотят «учить каждого по-своему», а потом выясняется, что у студента даже не спросили, можно ли так делать.
Стоп, вернусь назад. Я — Марина Погодина, у меня бэкграунд во внутреннем аудите и ИТ-рисках, и поэтому я смотрю на RAG без магии и хайпа: как на систему, которая обязана быть прозрачной — особенно в образовании.
Что такое RAG в образовании и почему вокруг него столько нервов
По состоянию на февраль 2026 RAG в образовании даёт персонализацию быстро и недорого, но только если источники, доступы и контур данных совпадают с тем, что написано в документах. Иначе «умный помощник» становится проверкой на прочность.
Определение на человеческом языке
RAG (Retrieval-Augmented Generation) — это подход, где модель отвечает не «из головы», а сначала находит фрагменты в вашей базе знаний, и уже на них строит ответ или план обучения.
В учебном контексте это обычно выглядит так: студент задаёт вопрос в LMS, система вытаскивает куски из лекций, методичек, банка задач, а потом аккуратно формулирует объяснение под уровень. На бумаге звучит красиво, а на практике сразу всплывают два неприятных слова: персональные данные.
И вот здесь начинается нервяк. Потому что если вы используете ФИО, результаты тестов, историю ошибок, интересы и комментарии тьютора — вы уже в зоне 152-ФЗ, и регулятору всё равно, как у вас называется кнопка «персонализация».
Почему в 2026 регулятор смотрит на факты, а не на презентации
В начале 2026 я всё чаще вижу одну и ту же картину: ОРД вроде есть, политика на сайте висит, а фактическая схема данных живёт отдельной жизнью (иногда в виде «ой, мы подключили внешний виджет, он сам»).
Если у вас CRM отдельно, LMS отдельно, а чат-бот с RAG тянет что-то из внешних источников, то «единая картинка» теряется. А регулятор смотрит именно на трассу: что собирали, куда отправили, кто имел доступ, как удаляете по запросу. Это критично, потому что бумаги без реальной архитектуры не спасают.
Ссылку на первоисточник держу под рукой: требования к локализации и обработке ПДн проще читать в первоисточнике, например на Consultant.ru (152-ФЗ). Да, чтение не самое бодрое, но зато отрезвляет.
Маленький маркер «здоровой» RAG-схемы
Я раньше думала, что достаточно одной политики, но после нескольких аудитов поменяла мнение: сильный признак зрелости — когда вы можете за 15 минут нарисовать схему данных и назвать ответственного.
Если ответственный «где-то в ИТ», а согласия «вроде в оферте», то дальше будет боль: от внедрения до первой претензии студента или родителя. И да, в образовании претензии пишут охотно — особенно когда речь про оценки и «почему вы решили, что мне надо проще».
Дальше логичный вопрос: какие данные вообще нужны, чтобы RAG был персональным, но не прожорливым и не опасным.
Какие данные реально нужны для персонализации (и какие лучше не трогать)
Для персонализации учебного контента обычно хватает 5-7 полей, а всё остальное — лишний риск. Минимизация данных в 2026 экономит не только нервы, но и бюджет на защиту.
Минимизация: когда ID курса лучше имени студента
Самая частая ошибка онлайн-школ — тащить в RAG всё, что есть в CRM: ФИО, телефон, email, город, иногда даже переписку с менеджером. Потом это «случайно» оказывается в логах, в промптах, в выгрузках. И начинается уборка, причём срочная.
На практике для рекомендаций почти всегда достаточно: идентификатора пользователя, идентификатора курса, прогресса, результатов по темам и пары сигналов интереса (например, выбранные модули). ФИО и телефон для этого не нужны. И если вы можете заменить «Маша Петрова» на «student_1048», делайте это сразу — не героизм, а нормальная гигиена.
Это ещё и про доказуемость: когда вы показываете, что сознательно отрезали лишнее, разговор с безопасностью и юристами становится короче. Я люблю короткие разговоры, честно.
Согласия, отзыв и удаление: неприятная часть, которая спасает проект
Персонализация — почти всегда отдельная цель обработки, и её лучше фиксировать отдельным согласием, а не прятать в «общих условиях». Причём с понятным сроком: например, «до конца курса».
Если студент (или родитель) отзывает согласие, вы обязаны прекратить обработку и удалить данные, относящиеся к этой цели. Я в проектах закладываю техническую возможность удаления из индекса и хранилища, плюс акт уничтожения — потому что это потом спрашивают. По формулировкам и обязанностям помогает сверяться с официальными разъяснениями, например на сайте Роскомнадзора о персональных данных.
И да, «удалить из базы» — это не только таблица в Postgres. Это ещё векторный индекс, кэш, логи, иногда выгрузки у подрядчика. Я хотела сделать всё идеально с первого раза, но это было наивно пришлось пройти три итерации, чтобы закрыть хвосты.
Короткий список того, что я считаю «достаточно» для RAG-персонализации
Когда команда спорит, что именно отдавать в ai агент с rag, я возвращаю разговор в плоскость «что реально влияет на рекомендацию». Обычно получается такой набор.
- Идентификатор студента (псевдоним/ID), без ФИО
- Курс и модуль, где человек сейчас учится
- Процент прогресса и история попыток по темам
- Агрегированные результаты тестов (например, по блокам тем)
- Явные интересы: выбранные элективы, отмеченные материалы
Всё, что не попало в этот список, я добавляю только под конкретную гипотезу и с понятным сроком хранения. Иначе это превращается в коллекционирование данных, а не в персонализацию.
Теперь, когда данные «подсушили», можно говорить про архитектуру. Потому что в 2026 вопрос «где лежит векторная база» звучит почти как «где храните деньги».
Как выглядит white-data архитектура RAG в 2026: без зарубежных теней
В 2025-2026 я вижу, что жизнеспособная RAG-архитектура в образовании держится на трёх вещах: локальный контур, контроль доступа и воспроизводимость ответов. Если одно выпадает, доверие студентов падает быстрее метрик.
Контур в РФ и локализация — это не «страшилка», а инженерное требование
В образовании очень легко уехать в зарубежные сервисы «по привычке»: аналитика, чаты поддержки, встроенные виджеты. А потом внезапно выясняется, что данные студентов куда-то утекали через cookies или логи запросов.
Я придерживаюсь методики white-data PROMAREN: все персональные данные остаются в контуре компании, а наружу выходит только то, что не позволяет идентифицировать человека. В 2026 это проще делать на локальном облаке или on-premise, чем потом доказывать, что «ничего не передавали».
Про локализацию и последствия лучше читать в правовых системах, например: Гарант о требованиях к локализации ПДн. Там без поэзии, зато понятно, почему «у нас сервер где-то в Европе» в образовании звучит плохо.
Как я объясняю RAG-поток методистам (без схем на 20 блоков)
Представь ситуацию: студентка Маша из Питера застряла на алгебре. Система видит не Машу, а профиль: уровень по теме 60%, типичные ошибки, какие видео она уже смотрела. Дальше RAG достаёт из базы именно те объяснения и задачи, которые подходят под этот профиль, и формирует план на неделю.
Бытовая аналогия у меня простая: как бабушка выбирает пирожки — не всем с вишней, а тем, кто любит кислое. Забавно, но методисты понимают сразу, и дальше разговор идёт про качество материалов, а не про «магический интеллект».
В одном проекте онлайн-школы (маленькой, без громкого имени) от настройки до запуска ушло две недели, а точность рекомендаций по внутренней проверке держалась около 85%. Там «выстрелило» не потому, что модель была самая модная, а потому что база знаний была чистой.
Зачем в образовании нужны ссылки на источники и цитирование
В 2026 студенты быстро привыкают к помощникам в LMS и так же быстро перестают им верить, если ответы звучат уверенно, но не опираются на материалы курса. Поэтому я закладываю в RAG правило: ответ без источника — это черновик, а не финальная подсказка.
Это снижает конфликты с преподавателями: «почему бот так сказал» превращается в «вот фрагмент лекции и страница методички». А ещё это удобно для контроля качества и для разбора инцидентов.
Остаётся приземлённый вопрос: на каких инструментах это собирать, чтобы не разориться и не нарушить закон. Пойдём туда, где обычно начинаются холивары.
Инструменты и rag пример: что я беру в работу, а что обхожу
Если выбирать инструменты для RAG в образовании в 2026, то 80% успеха — это не бренд модели, а связка «векторный поиск + локальная генерация + интеграция с LMS». Остальное — косметика и презентации.
Прагматика: «дешево» считается по часам преподавателя
По опыту PROMAREN, автоматизация рекомендаций материалов даёт экономию времени преподавателя и методиста на 40-60%: вместо часа на группу — минуты на человека, особенно на больших потоках. В ROI это выглядит грубо, но честно: на курсе 1000 студентов экономия может доходить до 500 часов в семестр, то есть 300-500 тысяч рублей при ставке 600 руб/час.
Я видела, как единые центры обработки ПДн в вузах повышают вовлечённость: когда согласия прозрачны, студенты меньше «зажимаются» и чаще пользуются рекомендациями. Цифры вроде +30% вовлечённости я встречала в обсуждениях и отчётах внутри проектов 2025-2026 (обобщаю, без раскрытия заказчиков).
И да, тут появляется место для автоматизации: в подходе PROMAREN к AI-ассистентам я обычно отдельно считаю, сколько часов экономит каждый сценарий — иначе команда спорит «нравится/не нравится», а не «работает/не работает».
Мой рабочий стек в 2026 (варианты, а не догма)
Я не привязана к одному вендору, но есть набор, который чаще всего закрывает требования по контуру и управляемости. Если нужно быстро и в рамках бюджета, я выбираю из этого списка и подгоняю под контекст.
- Векторный поиск в локальном облаке (например, Yandex Cloud Vector Search) или on-premise
- Генерация на локальной LLM (например, GigaChat или YandexGPT) без экспорта ПДн
- Хранилище материалов курса в контролируемом контуре (LMS/объектное хранилище)
- Интеграция в Moodle/другую LMS через API и роли доступа
- Автоматизация рутины через материалы по AI-агентам и проверенные сценарии (у меня это часто n8n, хотя он запускается у всех с третьей попытки)
После списка всегда хочется спросить: «а можно ли просто подключить западный сервис и не мучиться?» Можно, но последствия обычно дороже. И в образовании эти последствия быстро становятся публичными.
Один rag пример из жизни: «рекомендации под прогресс» без лишних ПДн
Запрос выглядит просто: «Рекомендуй физику для 10-классника с 70% успеваемостью». Внутри система подставляет не имя, а профиль по теме, достаёт из базы 5-7 релевантных фрагментов (уроки, тесты, разборы), и выдаёт план: где видео, где практика, где повтор.
Хороший тон — возвращать не только план, но и основание: какие материалы были использованы. Тогда преподаватель не спорит с ботом, а корректирует контент. И это уже не «бот вместо учителя», а помощник, который экономит время на подборе.
Логичное продолжение — поговорить о том, где подобные системы ломаются. Потому что ломаются они не на «плохой модели», а на дисциплине процесса.
Где всё ломается: ошибки, проверки, «микротечки» 2025-2026
3 из 5 образовательных RAG-проектов, которые я вижу в 2026, буксуют не на качестве контента, а на доступах и «случайных» интеграциях. Это означает одно: безопасность и методология должны идти рядом с продуктом, а не догонять его.
Ловушка «RAG сам разберётся» и почему утечка оценок — это не шутка
Типичный сценарий: команда делает чат в LMS, подключает RAG, потом кто-то просит «сделайте, чтобы тьюторы видели всё». И незаметно появляются лишние роли, доступ к полным профилям, выгрузки «на посмотреть».
В 2025 году я замечала рост мелких инцидентов — микротечки через логи, скриншоты, тестовые аккаунты. В 2026 это стало ещё острее, потому что ассистенты начали появляться в каждом втором учебном процессе. И если утекли баллы и комментарии по студенту, это уже конфликт, жалоба и проверка — иногда цепочкой.
Мне нравится подход «агрегированные данные по умолчанию»: тьютор видит ровно столько, сколько нужно для поддержки, а RAG работает на обезличенных сигналах. В одном кейсе вузовского формата (да, такие тоже бывают без бюрократии) это снизило токсичность в учебных чатах примерно на 25% за счёт более точных подсказок и модерации.
Провал, который я видела: зарубежные cookies и месяц миграции
Кейс неприятный и, к сожалению, типичный: школа использовала внешний чат-виджет, а Роскомнадзор нашёл зарубежные cookies. Штраф был порядка 200 тысяч рублей, а перенос данных и замена интеграций заняли месяц. Самое обидное — персонализация в итоге остановилась на пике нагрузки.
После этого команда наконец сделала то, что надо было в начале: описала фактические потоки данных, убрала лишние поля, назначила ответственного, привела ОРД в соответствие реальности. Звучит скучно, зато работает.
Как я проверяю «готовность к проверке» без паники и героизма
Я не люблю чек-листы ради чек-листов, но минимальный здравый контроль нужен. Обычно я прохожу глазами: где политика и цели, где согласия, где уведомление в РКН, кто ответственный, как удаляем по отзыву, какие системы реально подключены.
Если вы не можете за один созвон объяснить, какие данные попадают в RAG и как их удалить, проект ещё не про персонализацию. Он про риск.
И вот тут появляется взрослая мысль: персонализированное обучение — это не про «чтобы было модно», а про доверие. А доверие строится не только на качестве контента, но и на том, как вы обращаетесь с данными студентов.
Три мысли, которые остаются со мной после проектов 2025-2026
Первое: RAG в образовании даёт измеримую экономию времени, но только при чистой базе знаний и ссылках на источники. Второе: минимизация данных делает персонализацию безопаснее и дешевле. Третье: соответствие 152-ФЗ — это не «юридическая часть», а инженерная характеристика системы.
Обо мне. Я — Марина Погодина, основательница PROMAREN и AI Governance & Automation Lead, ex-аудитор ИТ-рисков. С 2024 года помогаю командам в РФ строить white-data RAG под 152-ФЗ; пишу в канале PROMAREN.
Если хочешь глубже погрузиться в практику RAG и агентов, загляни на сайт PROMAREN и полистай подборку статей про RAG. А для быстрых тестов у меня иногда помогает тестовый бот — без обещаний, просто чтобы пощупать.
Что ещё важно знать перед запуском персонализации
Можно ли RAG без согласия?
Нет, для персонализации почти всегда нужно отдельное согласие с понятной целью и сроком, даже если базовый доступ к курсу оформлен договором. Исключения бывают, но они узкие и их лучше подтверждать с юристом. Если согласия нет, ограничься обезличенной аналитикой и общими рекомендациями без привязки к человеку.
Что делать, если студент отзывает согласие?
Нужно прекратить обработку по этой цели и удалить связанные данные из всех мест, где они живут: профиль, векторный индекс, кэш и логи, если там есть идентификаторы. Дополнительно фиксируют факт удаления актом, чтобы было чем отвечать на запросы. Внутренний срок я обычно ставлю до 3 рабочих дней, чтобы не растягивать.
Штрафы реальны в образовании или это страшилки?
Да, штрафы и проверки реальны, особенно у крупных платформ, вузов и проектов с прокторингом или биометрией. Риски усиливаются, когда данные уходят в зарубежные сервисы аналитики или поддержки, а в документах это не отражено. Практически это выглядит так: сначала жалоба или инцидент, потом запросы, и дальше уже проверяют фактические потоки данных.
Сколько стоит запуск RAG для онлайн-школы в 2026?
Часто старт укладывается в 50-200 тысяч рублей на инфраструктуру и настройку, если база знаний уже собрана и не нужно переписывать LMS. Дороже выходит не «RAG как технология», а подготовка контента, права на материалы и выстраивание процесса обновления базы. Окупаемость обычно считают через экономию часов преподавателя и снижение нагрузки на поддержку.
Можно ли сделать RAG для самозанятых репетиторов?
Да, можно, но придётся дисциплинированно работать с согласием и минимизацией данных, особенно если ученик несовершеннолетний. Храни материалы и профили в локальном контуре, не отправляй наружу ФИО, контакты и переписку, а в RAG используй только учебные сигналы. Если ученик просит удалить данные, у тебя должна быть понятная процедура, а не «ну я поищу где лежит».