Продолжаем просветительский цикл по Федеративному обучению, большой пост по которому мы публиковали еще совсем недавно... ЦЕНТРАЛИЗОВАННОЕ ОБУЧЕНИЕ (классика): почему тут больше всего юридических рисков? 🤒 Как работает (в 3 шага): 1️⃣ Вы собираете данные в единое хранилище (DWH/даталейк/CRM-выгрузки); 2️⃣ Чистите/размечаете; 3️⃣ Обучаете модель на этих данных и получаете веса модели + метрики. Где тут ПДн, юридически: Персональные данные — это любая информация о прямо/косвенно определяемом человеке. Если в датасете есть ФИО, телефоны, почта, ID клиентов, переписки, записи звонков, истории обращений, это обработка ПДн со всеми обязанностями. ПОЧЕМУ ЭТО БОЛЬШОЙ РИСК: ⏩ Риск концентрации: один даталейк (озеро данных) = одна точка компрометации. ⏩ «Хвосты» обработки: сырые выгрузки, версии датасетов, логирование пайплайна, тестовые выборки часто живут дольше цели. ⏩ Модель может запомнить: современные модели иногда непредсказуемо воспроизводят редкие фрагменты обучающих данных (особенно е
ЦЕНТРАЛИЗОВАННОЕ ОБУЧЕНИЕ (классика): почему тут больше всего юридических рисков?
4 февраля4 фев
1 мин