32 подписчика

RAG (поиск + генерация по вашим документам)

3 дня назад3 дня назад

1 мин

Пост по Федеративному обучению Пост 1 из цикла Пост 2 из цикла Пост 3 из цикла ➖➖➖➖➖➖➖➖➖➖➖ RAG (поиск + генерация по вашим документам) Почему это часто лучший вариант для ПДн 🤒 Идея простая: Модель сама по себе "общая". А ваши знания находятся в вашей базе. Когда пользователь задает вопрос, система: 1️⃣ Находит релевантные фрагменты (поиск/векторный поиск); 2️⃣ Подставляет их в контекст запроса; 3️⃣ Модель формирует ответ. Почему RAG снижает риск: ➖ данные не превращаются в веса модели (меньше риск воспроизведения из памяти), ➖ проще контролировать, где хранятся документы и кто к ним имеет доступ, ➖ проще управлять жизненным циклом данных (удалили документ, и знание исчезло). НО ИЛЛЮЗИИ СТРОИТЬ НЕ СТОИТ: RAG — НЕ "ВОЛШЕБНАЯ ОБЕЗЛИЧКА". ПДн могут быть: ➡️ в индексируемых документах, ➡️ в самой базе (векторное хранилище это тоже хранилище данных), ➡️ в логах запросов (кто что спрашивал часто тоже чувствительно). Риски безопасности: 🔵 утечки через неправильные права доступа к документам

Пост по Федеративному обучению

Пост 1 из цикла

Пост 2 из цикла

Пост 3 из цикла

➖➖➖➖➖➖➖➖➖➖➖

RAG (поиск + генерация по вашим документам)

Почему это часто лучший вариант для ПДн 🤒

Идея простая:

Модель сама по себе "общая". А ваши знания находятся в вашей базе.

Когда пользователь задает вопрос, система:

1️⃣ Находит релевантные фрагменты (поиск/векторный поиск);

2️⃣ Подставляет их в контекст запроса;

3️⃣ Модель формирует ответ.

Почему RAG снижает риск:

➖ данные не превращаются в веса модели (меньше риск воспроизведения из памяти),

➖ проще контролировать, где хранятся документы и кто к ним имеет доступ,

➖ проще управлять жизненным циклом данных (удалили документ, и знание исчезло).

НО ИЛЛЮЗИИ СТРОИТЬ НЕ СТОИТ: RAG — НЕ "ВОЛШЕБНАЯ ОБЕЗЛИЧКА".

ПДн могут быть:

➡️ в индексируемых документах,

➡️ в самой базе (векторное хранилище это тоже хранилище данных),

➡️ в логах запросов (кто что спрашивал часто тоже чувствительно).

Риски безопасности:

🔵 утечки через неправильные права доступа к документам,

🔵"инъекции" через документы/подсказки (когда текст заставляет модель выдавать лишнее),

🔵вынос секретов через ответы, если не настроены правила выдачи.

Мини-набор мер для комплаенса и ИБ:

✔️ Инвентаризация источников: какие документы попадают в индекс;

✔️ Разграничение доступа "как в исходных системах", а не "всем и все";

✔️ Протоколирование запросов, но без избыточной детализации ПДн;

✔️ Настройка фильтров выдачи (чтобы модель не возвращала ПДн как есть, если это не требуется).

А теперь к модному обещанию: "Данные вообще никуда не уходят, мы учим модель на месте". Это и есть федеративное обучение. Оно полезное, но далеко не безупречное.