142,9 тыс подписчиков

На OpenAI подали в суд из-за кражи большого объема персональных данных для обучения ChatGPT, DALL-E

5 июля 20235 июл 2023

3 мин

Каждый ответ чат-бота или генератора изображений с искусственным интеллектом основан на чем-то, и этим “чем-то” являются непостижимо большие объемы данных. Но откуда берутся эти данные? В поданном коллективном иске утверждается, что OpenAI незаметно собрала "огромное количество личных данных" со страниц социальных сетей, частных переписок и даже медицинских карт людей для обучения ChatGPT и DALL-E, нарушив тем самым несколько законов о конфиденциальности. На прошлой неделе шестнадцать пострадавших и их адвокаты подали иск в Окружной суд США по Северному округу Калифорнии. По их словам, OpenAI решила «получать прибыль за счет конфиденциальности, безопасности и этики», прочесывая Интернет в поисках большого количества конфиденциальной личной информации, которую она "скормила" своим большим языковым моделям (LLM) и алгоритмам глубокого языка для разработки ChatGPT и DALL-E. Среди этих данных была и частично общедоступная информация, например, посты в социальных сетях, и более приватная ин

На прошлой неделе шестнадцать пострадавших и их адвокаты подали иск в Окружной суд США по Северному округу Калифорнии. По их словам, OpenAI решила «получать прибыль за счет конфиденциальности, безопасности и этики», прочесывая Интернет в поисках большого количества конфиденциальной личной информации, которую она "скормила" своим большим языковым моделям (LLM) и алгоритмам глубокого языка для разработки ChatGPT и DALL-E. Среди этих данных была и частично общедоступная информация, например, посты в социальных сетях, и более приватная информация, такая как личная переписка, персональная информация (PII), финансовые данные, биометрические данные, истории болезни и куки браузера.

Эксперты утверждают, что OpenAI располагает большим количеством медицинских данных случайных пациентов, чему способствовало стремление медицинских учреждений внедрить в свою практику недостаточно проработанный чат-бот. Каждый раз, когда пациент подробно описывает свои медицинские проблемы для ChatGPT, эти данные сохраняются на серверах OpenAI. Реальные медицинские записи также находятся под угрозой: один истец, как сообщается, использовал инструмент под названием «Have I Been Trained», чтобы определить, что частные клинические фотографии (используемые для документирования лечения генетического заболевания) были извлечены из ее медицинской карты и добавлены в Common Crawl - архив данных, который открыто хвастается тем, что "к нему может получить доступ и проанализировать любой желающий”. В иске утверждается, что фотографии девушки были монетизированы без ее согласия, став частью продуктов OpenAI.

Домашняя страница ChatGPT компании OpenAI.

Возможно, наиболее поразительно то, что OpenAI извлек фотографии детей из Интернета и использовал их для обучения DALL-E, печально известного генератора изображений. Сообщается, что именно эти данные сделали DALL-E популярным по совершенно неподобающим причинам. «DALL-E [OpenAI] стал излюбленным инструментом педофилов… За считанные секунды DALL-E может создавать реалистичные изображения детей, совершающих половые акты», — говорится в заявке. «Эта модель была обучена на миллиардах изображений, взятых без предварительного уведомления и согласия из Интернета… Таким образом, изображения реальных детей являются исходным материалом для детской порнографии, созданной искусственным интеллектом».

В иске утверждается, что интернет-пользователи и медицинские пациенты разумно ожидают, что их информация «не будет перехвачена какой-либо третьей стороной, желающей собрать и использовать всю [их] информацию и данные в коммерческих целях». Вот тут-то все становится намного сложнее. За последние годы мы узнали, что наши данные постоянно собираются и выставляются на продажу, нравится нам это или нет. Подобные организации должны быть зарегистрированы в качестве продацов данных, чтобы собирать эти данные на законных основаниях, чего OpenAI не делала. Вместо этого, как утверждается в иске, компания пошла по другому пути: «Несмотря на установленные протоколы покупки и использования личной информации, [OpenAI] применила другой подход: кража».

Конечно, существует также несколько законов, ограничивающих типы данных, которые могут отслеживаться или продаваться без согласия пользователя, это зависит от страны, а в данном случае от штата (потому что в США каждый отдельный штат имеет свои законы). Хотя OpenAI еще не опубликовала заявление по поводу судебного иска, компания должна доказать, что действовала в рамках своих прав, когда собирала информацию о бесчисленном количестве людей из Интернета.

📃 Читайте далее на сайте

OpenAI

60,9 тыс интересуются