Найти в Дзене

ЦЕНТРАЛИЗОВАННОЕ ОБУЧЕНИЕ (классика): почему тут больше всего юридических рисков?

Продолжаем просветительский цикл по Федеративному обучению, большой пост по которому мы публиковали еще совсем недавно... ЦЕНТРАЛИЗОВАННОЕ ОБУЧЕНИЕ (классика): почему тут больше всего юридических рисков? 🤒 Как работает (в 3 шага): 1️⃣ Вы собираете данные в единое хранилище (DWH/даталейк/CRM-выгрузки); 2️⃣ Чистите/размечаете; 3️⃣ Обучаете модель на этих данных и получаете веса модели + метрики. Где тут ПДн, юридически: Персональные данные — это любая информация о прямо/косвенно определяемом человеке. Если в датасете есть ФИО, телефоны, почта, ID клиентов, переписки, записи звонков, истории обращений, это обработка ПДн со всеми обязанностями. ПОЧЕМУ ЭТО БОЛЬШОЙ РИСК: ⏩ Риск концентрации: один даталейк (озеро данных) = одна точка компрометации. ⏩ «Хвосты» обработки: сырые выгрузки, версии датасетов, логирование пайплайна, тестовые выборки часто живут дольше цели. ⏩ Модель может запомнить: современные модели иногда непредсказуемо воспроизводят редкие фрагменты обучающих данных (особенно е

Продолжаем просветительский цикл по Федеративному обучению, большой пост по которому мы публиковали еще совсем недавно...

ЦЕНТРАЛИЗОВАННОЕ ОБУЧЕНИЕ (классика): почему тут больше всего юридических рисков? 🤒

Как работает (в 3 шага):

1️⃣ Вы собираете данные в единое хранилище (DWH/даталейк/CRM-выгрузки);

2️⃣ Чистите/размечаете;

3️⃣ Обучаете модель на этих данных и получаете веса модели + метрики.

Где тут ПДн, юридически:

Персональные данные — это любая информация о прямо/косвенно определяемом человеке. Если в датасете есть ФИО, телефоны, почта, ID клиентов, переписки, записи звонков, истории обращений, это обработка ПДн со всеми обязанностями.

ПОЧЕМУ ЭТО БОЛЬШОЙ РИСК:

⏩ Риск концентрации: один даталейк (озеро данных) = одна точка компрометации.

⏩ «Хвосты» обработки: сырые выгрузки, версии датасетов, логирование пайплайна, тестовые выборки часто живут дольше цели.

⏩ Модель может запомнить: современные модели иногда непредсказуемо воспроизводят редкие фрагменты обучающих данных (особенно если данные уникальные или много повторов).

⏩ Безопасность — обязанность оператора: меры защиты ПДн должны быть обеспечены независимо от того, ИИ это или нет.

Необходимый минимум, который надо сделать:

➡️ Цель обучения фиксируем как цель обработки ПДн и проверяем правовое основание (чаще всего согласие или договор/закон, в зависимости от кейса);

➡️ Минимизируем состав данных (обучаем не на всем, а на нужном);

➡️ Задаем сроки хранения версий датасетов и процедур уничтожения;

➡️ Отделяем контуры: обучение/тест/прод и права доступа;

➡️ В документах: описание обработки, модель угроз/рисков, требования к мерам защиты (1119 + приказы ФСТЭК/ФСБ по контексту ИСПДн).

Обучать с нуля на ПДн дорого и рискованно. Почти всегда бизнес делает иначе: берет готовую модель и подкручивает под свои задачи. Вот тут и начинается путаница между дообучением, доработкой без обучения и простыми промптами.

Еще больше информации по циклу ждите в ближайшие дни ➡️

-2