Автор Тони Херст
Отмечая, что noyb.eu (noyb - none of your business - «не ваше дело»; организация по правам информации) имеет в Австрии жалобу на OpenAI — ChatGPT предоставляет ложную информацию о людях, и OpenAI не может ее исправить.
Поэтому мне интересно: если вы сделаете запрос субъектного доступа DPA ко всему, что компания хранит о вас в своих базах данных, то сможете отыскать эти данные.
Но что, если вы спросите компанию, что она «думает» о вас, например: если вы выполните поиск в любой из его информационных систем и предполагаете, что модели genAI классифицируются как «информационные системы» (если нет, то как они классифицируются?).
Если модель была обучена на персональной информации, то эта информация повлияла на веса модели и может возвращать элементы этой информации посредством статистического процесса. Если вы спросите модель, что она «знает» о конкретном человеке, то сможете ли вы утверждать, что она возвращает то, что эта организация думает о вас, и, следовательно, является объектом запросов на доступ к персональной информации? Если процесс является статистическим, как можно с какой-либо степенью уверенности узнать, что это за «информация»? И как это можно исправить?
Насколько ответственна компания за любые заявления, которые модель может сделать о вас, если модель, которой управляет компания:
- прошла обучение с нуля на данных компании?
- прошел ли результат сторонней модели дальнейшее обучение или дорабатывался на основе данных компании?
- является ли она чисто сторонней моделью?
Если компания использует процесс генерации с дополненной выборкой (RAG), в котором ваши (фактические) данные «интерпретируются» и возвращаются после обработки с помощью модели в виде сгенерированного текста, является ли этот сгенерированный текст тем, что компания думает о вас?
Если у маркетинговой компании есть база данных, которая относит меня к определенной демографической группе, могу ли я запросить, что это за группы и что это за ярлыки?
Если кто-то в компании ищет меня, и диалоговый ИИ помечает меня на основе его обучения и моих данных (например, предоставленных через механизм RAG), могу ли я запросить, что это была за информация, например, через журналы чата? Но что насчет того, чтобы в следующий раз кто-нибудь из компании спросил обо мне в корпоративном чате, что он тогда скажет? Могу ли я запросить все, что эта информация может сказать обо мне когда-либо, а также вероятность каждого ответа?!
Каков статус «сгенерированной информации» (даже информации) с точки зрения GDPR? Как «сгенерированная информация» связана с информацией (или данными), «хранящейся» обо мне.
Чем для человека, использующего пользовательский интерфейс, отличается «генерируемая информация» от полученной информации? В каждом случае, в какой степени эта информация может считаться тем, что компания «верит» обо мне?