Найти в Дзене

RAG для образования: персонализированное обучение в 2026 году

5 шагов настройки RAG на учебной платформе | Марина Погодина, PROMAREN RAG для образования в 2026 году уже работает — но персонализированное обучение в РФ быстро превращается в юридический квест, если забыть про 152-ФЗ и белые данные. Кофе остывает, а риски — нет. Обновлено: 8 февраля 2026 Время чтения: 12-14 минут Февраль 2026, Москва: за окном снег, на экране — стопка документов по 152-ФЗ, и я в очередной раз ловлю себя на мысли, что персонализация в образовании ломается не на «умности» моделей. Она ломается на источниках, согласиях и том, где физически лежат данные. Иронично: все хотят «учить каждого по-своему», а потом выясняется, что у студента даже не спросили, можно ли так делать. Стоп, вернусь назад. Я — Марина Погодина, у меня бэкграунд во внутреннем аудите и ИТ-рисках, и поэтому я смотрю на RAG без магии и хайпа: как на систему, которая обязана быть прозрачной — особенно в образовании. По состоянию на февраль 2026 RAG в образовании даёт персонализацию быстро и недорого, но то
Оглавление
   5 шагов настройки RAG на учебной платформе | Марина Погодина, PROMAREN Марина Погодина
5 шагов настройки RAG на учебной платформе | Марина Погодина, PROMAREN Марина Погодина

5 шагов настройки RAG на учебной платформе | Марина Погодина, PROMAREN

RAG для образования в 2026 году уже работает — но персонализированное обучение в РФ быстро превращается в юридический квест, если забыть про 152-ФЗ и белые данные. Кофе остывает, а риски — нет.

Обновлено: 8 февраля 2026

Время чтения: 12-14 минут

  • Что такое RAG в образовании и почему вокруг него столько нервов
  • Какие данные реально нужны для персонализации (и какие лучше не трогать)
  • Как выглядит white-data архитектура RAG в 2026: без зарубежных теней
  • Инструменты и rag пример: что я беру в работу, а что обхожу
  • Где всё ломается: ошибки, проверки, «микротечки» 2025-2026

Февраль 2026, Москва: за окном снег, на экране — стопка документов по 152-ФЗ, и я в очередной раз ловлю себя на мысли, что персонализация в образовании ломается не на «умности» моделей.

Она ломается на источниках, согласиях и том, где физически лежат данные. Иронично: все хотят «учить каждого по-своему», а потом выясняется, что у студента даже не спросили, можно ли так делать.

Стоп, вернусь назад. Я — Марина Погодина, у меня бэкграунд во внутреннем аудите и ИТ-рисках, и поэтому я смотрю на RAG без магии и хайпа: как на систему, которая обязана быть прозрачной — особенно в образовании.

Что такое RAG в образовании и почему вокруг него столько нервов

По состоянию на февраль 2026 RAG в образовании даёт персонализацию быстро и недорого, но только если источники, доступы и контур данных совпадают с тем, что написано в документах. Иначе «умный помощник» становится проверкой на прочность.

Определение на человеческом языке

RAG (Retrieval-Augmented Generation) — это подход, где модель отвечает не «из головы», а сначала находит фрагменты в вашей базе знаний, и уже на них строит ответ или план обучения.

В учебном контексте это обычно выглядит так: студент задаёт вопрос в LMS, система вытаскивает куски из лекций, методичек, банка задач, а потом аккуратно формулирует объяснение под уровень. На бумаге звучит красиво, а на практике сразу всплывают два неприятных слова: персональные данные.

И вот здесь начинается нервяк. Потому что если вы используете ФИО, результаты тестов, историю ошибок, интересы и комментарии тьютора — вы уже в зоне 152-ФЗ, и регулятору всё равно, как у вас называется кнопка «персонализация».

Почему в 2026 регулятор смотрит на факты, а не на презентации

В начале 2026 я всё чаще вижу одну и ту же картину: ОРД вроде есть, политика на сайте висит, а фактическая схема данных живёт отдельной жизнью (иногда в виде «ой, мы подключили внешний виджет, он сам»).

Если у вас CRM отдельно, LMS отдельно, а чат-бот с RAG тянет что-то из внешних источников, то «единая картинка» теряется. А регулятор смотрит именно на трассу: что собирали, куда отправили, кто имел доступ, как удаляете по запросу. Это критично, потому что бумаги без реальной архитектуры не спасают.

Ссылку на первоисточник держу под рукой: требования к локализации и обработке ПДн проще читать в первоисточнике, например на Consultant.ru (152-ФЗ). Да, чтение не самое бодрое, но зато отрезвляет.

Маленький маркер «здоровой» RAG-схемы

Я раньше думала, что достаточно одной политики, но после нескольких аудитов поменяла мнение: сильный признак зрелости — когда вы можете за 15 минут нарисовать схему данных и назвать ответственного.

Если ответственный «где-то в ИТ», а согласия «вроде в оферте», то дальше будет боль: от внедрения до первой претензии студента или родителя. И да, в образовании претензии пишут охотно — особенно когда речь про оценки и «почему вы решили, что мне надо проще».

Дальше логичный вопрос: какие данные вообще нужны, чтобы RAG был персональным, но не прожорливым и не опасным.

Какие данные реально нужны для персонализации (и какие лучше не трогать)

Для персонализации учебного контента обычно хватает 5-7 полей, а всё остальное — лишний риск. Минимизация данных в 2026 экономит не только нервы, но и бюджет на защиту.

Минимизация: когда ID курса лучше имени студента

Самая частая ошибка онлайн-школ — тащить в RAG всё, что есть в CRM: ФИО, телефон, email, город, иногда даже переписку с менеджером. Потом это «случайно» оказывается в логах, в промптах, в выгрузках. И начинается уборка, причём срочная.

На практике для рекомендаций почти всегда достаточно: идентификатора пользователя, идентификатора курса, прогресса, результатов по темам и пары сигналов интереса (например, выбранные модули). ФИО и телефон для этого не нужны. И если вы можете заменить «Маша Петрова» на «student_1048», делайте это сразу — не героизм, а нормальная гигиена.

Это ещё и про доказуемость: когда вы показываете, что сознательно отрезали лишнее, разговор с безопасностью и юристами становится короче. Я люблю короткие разговоры, честно.

Согласия, отзыв и удаление: неприятная часть, которая спасает проект

Персонализация — почти всегда отдельная цель обработки, и её лучше фиксировать отдельным согласием, а не прятать в «общих условиях». Причём с понятным сроком: например, «до конца курса».

Если студент (или родитель) отзывает согласие, вы обязаны прекратить обработку и удалить данные, относящиеся к этой цели. Я в проектах закладываю техническую возможность удаления из индекса и хранилища, плюс акт уничтожения — потому что это потом спрашивают. По формулировкам и обязанностям помогает сверяться с официальными разъяснениями, например на сайте Роскомнадзора о персональных данных.

И да, «удалить из базы» — это не только таблица в Postgres. Это ещё векторный индекс, кэш, логи, иногда выгрузки у подрядчика. Я хотела сделать всё идеально с первого раза, но это было наивно пришлось пройти три итерации, чтобы закрыть хвосты.

Короткий список того, что я считаю «достаточно» для RAG-персонализации

Когда команда спорит, что именно отдавать в ai агент с rag, я возвращаю разговор в плоскость «что реально влияет на рекомендацию». Обычно получается такой набор.

  • Идентификатор студента (псевдоним/ID), без ФИО
  • Курс и модуль, где человек сейчас учится
  • Процент прогресса и история попыток по темам
  • Агрегированные результаты тестов (например, по блокам тем)
  • Явные интересы: выбранные элективы, отмеченные материалы

Всё, что не попало в этот список, я добавляю только под конкретную гипотезу и с понятным сроком хранения. Иначе это превращается в коллекционирование данных, а не в персонализацию.

Теперь, когда данные «подсушили», можно говорить про архитектуру. Потому что в 2026 вопрос «где лежит векторная база» звучит почти как «где храните деньги».

Как выглядит white-data архитектура RAG в 2026: без зарубежных теней

В 2025-2026 я вижу, что жизнеспособная RAG-архитектура в образовании держится на трёх вещах: локальный контур, контроль доступа и воспроизводимость ответов. Если одно выпадает, доверие студентов падает быстрее метрик.

Контур в РФ и локализация — это не «страшилка», а инженерное требование

В образовании очень легко уехать в зарубежные сервисы «по привычке»: аналитика, чаты поддержки, встроенные виджеты. А потом внезапно выясняется, что данные студентов куда-то утекали через cookies или логи запросов.

Я придерживаюсь методики white-data PROMAREN: все персональные данные остаются в контуре компании, а наружу выходит только то, что не позволяет идентифицировать человека. В 2026 это проще делать на локальном облаке или on-premise, чем потом доказывать, что «ничего не передавали».

Про локализацию и последствия лучше читать в правовых системах, например: Гарант о требованиях к локализации ПДн. Там без поэзии, зато понятно, почему «у нас сервер где-то в Европе» в образовании звучит плохо.

Как я объясняю RAG-поток методистам (без схем на 20 блоков)

Представь ситуацию: студентка Маша из Питера застряла на алгебре. Система видит не Машу, а профиль: уровень по теме 60%, типичные ошибки, какие видео она уже смотрела. Дальше RAG достаёт из базы именно те объяснения и задачи, которые подходят под этот профиль, и формирует план на неделю.

Бытовая аналогия у меня простая: как бабушка выбирает пирожки — не всем с вишней, а тем, кто любит кислое. Забавно, но методисты понимают сразу, и дальше разговор идёт про качество материалов, а не про «магический интеллект».

В одном проекте онлайн-школы (маленькой, без громкого имени) от настройки до запуска ушло две недели, а точность рекомендаций по внутренней проверке держалась около 85%. Там «выстрелило» не потому, что модель была самая модная, а потому что база знаний была чистой.

Зачем в образовании нужны ссылки на источники и цитирование

В 2026 студенты быстро привыкают к помощникам в LMS и так же быстро перестают им верить, если ответы звучат уверенно, но не опираются на материалы курса. Поэтому я закладываю в RAG правило: ответ без источника — это черновик, а не финальная подсказка.

Это снижает конфликты с преподавателями: «почему бот так сказал» превращается в «вот фрагмент лекции и страница методички». А ещё это удобно для контроля качества и для разбора инцидентов.

Остаётся приземлённый вопрос: на каких инструментах это собирать, чтобы не разориться и не нарушить закон. Пойдём туда, где обычно начинаются холивары.

Инструменты и rag пример: что я беру в работу, а что обхожу

Если выбирать инструменты для RAG в образовании в 2026, то 80% успеха — это не бренд модели, а связка «векторный поиск + локальная генерация + интеграция с LMS». Остальное — косметика и презентации.

Прагматика: «дешево» считается по часам преподавателя

По опыту PROMAREN, автоматизация рекомендаций материалов даёт экономию времени преподавателя и методиста на 40-60%: вместо часа на группу — минуты на человека, особенно на больших потоках. В ROI это выглядит грубо, но честно: на курсе 1000 студентов экономия может доходить до 500 часов в семестр, то есть 300-500 тысяч рублей при ставке 600 руб/час.

Я видела, как единые центры обработки ПДн в вузах повышают вовлечённость: когда согласия прозрачны, студенты меньше «зажимаются» и чаще пользуются рекомендациями. Цифры вроде +30% вовлечённости я встречала в обсуждениях и отчётах внутри проектов 2025-2026 (обобщаю, без раскрытия заказчиков).

И да, тут появляется место для автоматизации: в подходе PROMAREN к AI-ассистентам я обычно отдельно считаю, сколько часов экономит каждый сценарий — иначе команда спорит «нравится/не нравится», а не «работает/не работает».

Мой рабочий стек в 2026 (варианты, а не догма)

Я не привязана к одному вендору, но есть набор, который чаще всего закрывает требования по контуру и управляемости. Если нужно быстро и в рамках бюджета, я выбираю из этого списка и подгоняю под контекст.

  1. Векторный поиск в локальном облаке (например, Yandex Cloud Vector Search) или on-premise
  2. Генерация на локальной LLM (например, GigaChat или YandexGPT) без экспорта ПДн
  3. Хранилище материалов курса в контролируемом контуре (LMS/объектное хранилище)
  4. Интеграция в Moodle/другую LMS через API и роли доступа
  5. Автоматизация рутины через материалы по AI-агентам и проверенные сценарии (у меня это часто n8n, хотя он запускается у всех с третьей попытки)

После списка всегда хочется спросить: «а можно ли просто подключить западный сервис и не мучиться?» Можно, но последствия обычно дороже. И в образовании эти последствия быстро становятся публичными.

Один rag пример из жизни: «рекомендации под прогресс» без лишних ПДн

Запрос выглядит просто: «Рекомендуй физику для 10-классника с 70% успеваемостью». Внутри система подставляет не имя, а профиль по теме, достаёт из базы 5-7 релевантных фрагментов (уроки, тесты, разборы), и выдаёт план: где видео, где практика, где повтор.

Хороший тон — возвращать не только план, но и основание: какие материалы были использованы. Тогда преподаватель не спорит с ботом, а корректирует контент. И это уже не «бот вместо учителя», а помощник, который экономит время на подборе.

Логичное продолжение — поговорить о том, где подобные системы ломаются. Потому что ломаются они не на «плохой модели», а на дисциплине процесса.

Где всё ломается: ошибки, проверки, «микротечки» 2025-2026

3 из 5 образовательных RAG-проектов, которые я вижу в 2026, буксуют не на качестве контента, а на доступах и «случайных» интеграциях. Это означает одно: безопасность и методология должны идти рядом с продуктом, а не догонять его.

Ловушка «RAG сам разберётся» и почему утечка оценок — это не шутка

Типичный сценарий: команда делает чат в LMS, подключает RAG, потом кто-то просит «сделайте, чтобы тьюторы видели всё». И незаметно появляются лишние роли, доступ к полным профилям, выгрузки «на посмотреть».

В 2025 году я замечала рост мелких инцидентов — микротечки через логи, скриншоты, тестовые аккаунты. В 2026 это стало ещё острее, потому что ассистенты начали появляться в каждом втором учебном процессе. И если утекли баллы и комментарии по студенту, это уже конфликт, жалоба и проверка — иногда цепочкой.

Мне нравится подход «агрегированные данные по умолчанию»: тьютор видит ровно столько, сколько нужно для поддержки, а RAG работает на обезличенных сигналах. В одном кейсе вузовского формата (да, такие тоже бывают без бюрократии) это снизило токсичность в учебных чатах примерно на 25% за счёт более точных подсказок и модерации.

Провал, который я видела: зарубежные cookies и месяц миграции

Кейс неприятный и, к сожалению, типичный: школа использовала внешний чат-виджет, а Роскомнадзор нашёл зарубежные cookies. Штраф был порядка 200 тысяч рублей, а перенос данных и замена интеграций заняли месяц. Самое обидное — персонализация в итоге остановилась на пике нагрузки.

После этого команда наконец сделала то, что надо было в начале: описала фактические потоки данных, убрала лишние поля, назначила ответственного, привела ОРД в соответствие реальности. Звучит скучно, зато работает.

Как я проверяю «готовность к проверке» без паники и героизма

Я не люблю чек-листы ради чек-листов, но минимальный здравый контроль нужен. Обычно я прохожу глазами: где политика и цели, где согласия, где уведомление в РКН, кто ответственный, как удаляем по отзыву, какие системы реально подключены.

Если вы не можете за один созвон объяснить, какие данные попадают в RAG и как их удалить, проект ещё не про персонализацию. Он про риск.

И вот тут появляется взрослая мысль: персонализированное обучение — это не про «чтобы было модно», а про доверие. А доверие строится не только на качестве контента, но и на том, как вы обращаетесь с данными студентов.

Три мысли, которые остаются со мной после проектов 2025-2026

Первое: RAG в образовании даёт измеримую экономию времени, но только при чистой базе знаний и ссылках на источники. Второе: минимизация данных делает персонализацию безопаснее и дешевле. Третье: соответствие 152-ФЗ — это не «юридическая часть», а инженерная характеристика системы.

Обо мне. Я — Марина Погодина, основательница PROMAREN и AI Governance & Automation Lead, ex-аудитор ИТ-рисков. С 2024 года помогаю командам в РФ строить white-data RAG под 152-ФЗ; пишу в канале PROMAREN.

Если хочешь глубже погрузиться в практику RAG и агентов, загляни на сайт PROMAREN и полистай подборку статей про RAG. А для быстрых тестов у меня иногда помогает тестовый бот — без обещаний, просто чтобы пощупать.

Что ещё важно знать перед запуском персонализации

Можно ли RAG без согласия?

Нет, для персонализации почти всегда нужно отдельное согласие с понятной целью и сроком, даже если базовый доступ к курсу оформлен договором. Исключения бывают, но они узкие и их лучше подтверждать с юристом. Если согласия нет, ограничься обезличенной аналитикой и общими рекомендациями без привязки к человеку.

Что делать, если студент отзывает согласие?

Нужно прекратить обработку по этой цели и удалить связанные данные из всех мест, где они живут: профиль, векторный индекс, кэш и логи, если там есть идентификаторы. Дополнительно фиксируют факт удаления актом, чтобы было чем отвечать на запросы. Внутренний срок я обычно ставлю до 3 рабочих дней, чтобы не растягивать.

Штрафы реальны в образовании или это страшилки?

Да, штрафы и проверки реальны, особенно у крупных платформ, вузов и проектов с прокторингом или биометрией. Риски усиливаются, когда данные уходят в зарубежные сервисы аналитики или поддержки, а в документах это не отражено. Практически это выглядит так: сначала жалоба или инцидент, потом запросы, и дальше уже проверяют фактические потоки данных.

Сколько стоит запуск RAG для онлайн-школы в 2026?

Часто старт укладывается в 50-200 тысяч рублей на инфраструктуру и настройку, если база знаний уже собрана и не нужно переписывать LMS. Дороже выходит не «RAG как технология», а подготовка контента, права на материалы и выстраивание процесса обновления базы. Окупаемость обычно считают через экономию часов преподавателя и снижение нагрузки на поддержку.

Можно ли сделать RAG для самозанятых репетиторов?

Да, можно, но придётся дисциплинированно работать с согласием и минимизацией данных, особенно если ученик несовершеннолетний. Храни материалы и профили в локальном контуре, не отправляй наружу ФИО, контакты и переписку, а в RAG используй только учебные сигналы. Если ученик просит удалить данные, у тебя должна быть понятная процедура, а не «ну я поищу где лежит».