2,3K подписчиков

Сохраненная информация vs сгенерированная «информация»

Автор Тони Херст Отмечая, что noyb.

Автор Тони Херст

Отмечая, что noyb.eu (noyb - none of your business - «не ваше дело»; организация по правам информации) имеет в Австрии жалобу на OpenAI — ChatGPT предоставляет ложную информацию о людях, и OpenAI не может ее исправить.

Автор Тони Херст Отмечая, что noyb.-2

Поэтому мне интересно: если вы сделаете запрос субъектного доступа DPA ко всему, что компания хранит о вас в своих базах данных, то сможете отыскать эти данные.

Но что, если вы спросите компанию, что она «думает» о вас, например: если вы выполните поиск в любой из его информационных систем и предполагаете, что модели genAI классифицируются как «информационные системы» (если нет, то как они классифицируются?).

Если модель была обучена на персональной информации, то эта информация повлияла на веса модели и может возвращать элементы этой информации посредством статистического процесса. Если вы спросите модель, что она «знает» о конкретном человеке, то сможете ли вы утверждать, что она возвращает то, что эта организация думает о вас, и, следовательно, является объектом запросов на доступ к персональной информации? Если процесс является статистическим, как можно с какой-либо степенью уверенности узнать, что это за «информация»? И как это можно исправить?

Насколько ответственна компания за любые заявления, которые модель может сделать о вас, если модель, которой управляет компания:

  • прошла обучение с нуля на данных компании?
  • прошел ли результат сторонней модели дальнейшее обучение или дорабатывался на основе данных компании?
  • является ли она чисто сторонней моделью?

Если компания использует процесс генерации с дополненной выборкой (RAG), в котором ваши (фактические) данные «интерпретируются» и возвращаются после обработки с помощью модели в виде сгенерированного текста, является ли этот сгенерированный текст тем, что компания думает о вас?

Если у маркетинговой компании есть база данных, которая относит меня к определенной демографической группе, могу ли я запросить, что это за группы и что это за ярлыки?

Если кто-то в компании ищет меня, и диалоговый ИИ помечает меня на основе его обучения и моих данных (например, предоставленных через механизм RAG), могу ли я запросить, что это была за информация, например, через журналы чата? Но что насчет того, чтобы в следующий раз кто-нибудь из компании спросил обо мне в корпоративном чате, что он тогда скажет? Могу ли я запросить все, что эта информация может сказать обо мне когда-либо, а также вероятность каждого ответа?!

Каков статус «сгенерированной информации» (даже информации) с точки зрения GDPR? Как «сгенерированная информация» связана с информацией (или данными), «хранящейся» обо мне.

Чем для человека, использующего пользовательский интерфейс, отличается «генерируемая информация» от полученной информации? В каждом случае, в какой степени эта информация может считаться тем, что компания «верит» обо мне?

Источник