Найти в Дзене
SMP-Laptops

ИИ регулярно используют разговоры пользователей для обучения

Опасения по поводу конфиденциальности Крупные компании, занимающиеся искусственным интеллектом, используют разговоры пользователей в учебных целях, что вызывает серьезные опасения по поводу конфиденциальности и подчеркивает необходимость более прозрачной политики.
В прошлом месяце компания Anthropic внесла небольшое изменение в свои условия обслуживания клиентов: разговоры, которые вы ведете с чат-ботом с искусственным интеллектом Claude, будут использоваться для обучения его большой языковой модели по умолчанию, если вы не откажетесь от них.
Anthropic не одинок в принятии этой политики. Недавнее исследование политик конфиденциальности разработчиков Frontier показало, что шесть ведущих американских компаний вводят пользовательский ввод в свои модели, чтобы улучшить возможности и завоевать долю рынка. Некоторые предоставляют потребителям возможность отказаться, в то время как другие этого не делают.
Учитывая эту тенденцию, стоит ли пользователям чат-систем на базе искусственного инте

Опасения по поводу конфиденциальности

Крупные компании, занимающиеся искусственным интеллектом, используют разговоры пользователей в учебных целях, что вызывает серьезные опасения по поводу конфиденциальности и подчеркивает необходимость более прозрачной политики.

В прошлом месяце компания Anthropic внесла небольшое изменение в свои условия обслуживания клиентов: разговоры, которые вы ведете с чат-ботом с искусственным интеллектом Claude, будут использоваться для обучения его большой языковой модели по умолчанию, если вы не откажетесь от них.

Anthropic не одинок в принятии этой политики. Недавнее исследование политик конфиденциальности разработчиков Frontier показало, что шесть ведущих американских компаний вводят пользовательский ввод в свои модели, чтобы улучшить возможности и завоевать долю рынка. Некоторые предоставляют потребителям возможность отказаться, в то время как другие этого не делают.

Учитывая эту тенденцию, стоит ли пользователям чат-систем на базе искусственного интеллекта беспокоиться о своей конфиденциальности? «Безусловно, да», — говорит Дженнифер Кинг, научный сотрудник по вопросам конфиденциальности и политики данных в Стэнфордском институте ориентированного на человека искусственного интеллекта и ведущий автор исследования, опубликованного на сервере препринтов arXiv.

«Если вы поделитесь конфиденциальной информацией в диалоге с ChatGPT, Gemini или другими передовыми моделями, она может быть собрана и использована для обучения, даже если она находится в отдельном файле, который вы загрузили во время разговора».

Кинг и ее команда ученых из Стэнфорда изучили политику конфиденциальности разработчиков ИИ и выявили несколько причин для беспокойства, в том числе длительные сроки хранения данных, обучение работе с детскими данными и общее отсутствие прозрачности и подотчетности в практике конфиденциальности разработчиков. В свете этих выводов потребители должны дважды подумать об информации, которой они делятся в чате с искусственным интеллектом, и, по возможности, решительно отказаться от использования своих данных для обучения.

История политик конфиденциальности
Как средство коммуникации, политика конфиденциальности эпохи Интернета, которая сейчас применяется к чатам с искусственным интеллектом, глубоко ошибочна. Как правило, написанные запутанным юридическим языком, эти документы сложны для чтения и понимания потребителями. Тем не менее, мы должны согласиться с ними, если хотим посещать веб-сайты, выполнять запросы в поисковых системах и взаимодействовать с большими языковыми моделями (LLM).

В течение последних пяти лет разработчики ИИ собирали огромные объемы информации из общедоступного Интернета для обучения своих моделей, что может непреднамеренно привести к попаданию личной информации в их наборы данных.

«У нас есть сотни миллионов людей, взаимодействующих с чат-ботами с искусственным интеллектом, которые собирают персональные данные для обучения, и почти не проводилось исследований для изучения практики конфиденциальности для этих новых инструментов», — объясняет Кинг.

В Соединенных Штатах, добавляет она, защита конфиденциальности персональных данных, собранных или переданных разработчикам LLM, осложняется лоскутным одеялом законов на уровне штатов и отсутствием федерального регулирования.

Стремясь помочь восполнить этот пробел в исследованиях, команда из Стэнфорда сравнила политики конфиденциальности шести американских компаний: Amazon (Nova), Anthropic (Claude), Google (Gemini), Meta (Meta AI), Microsoft (Copilot) и OpenAI (ChatGPT). Они проанализировали сеть документов по каждой программе LLM, включая ее опубликованные политики конфиденциальности, связанные подполитики, а также связанные с ними часто задаваемые вопросы и руководства, доступные из интерфейсов чата, в общей сложности 28 объемных документов.

Чтобы оценить эту политику, исследователи следовали методологии, используемой Калифорнийским законом о неприкосновенности частной жизни, поскольку это самый всеобъемлющий закон о конфиденциальности в Соединенных Штатах, и все шесть разработчиков обязаны его соблюдать. Для каждой компании исследователи проанализировали формулировки в документации, чтобы понять, как заявленные политики решают три вопроса:

Используются ли пользовательские данные для чат-ботов для обучения или улучшения LLM?
Какие источники и категории персональных данных о потребителях собираются, хранятся и обрабатываются для обучения или совершенствования LLM?
Какие у пользователей есть варианты согласия или отказа от использования чатов для обучения?

Размытые границы
Ученые обнаружили, что все шесть компаний по умолчанию используют данные чата пользователей для обучения своих моделей, а некоторые разработчики хранят эту информацию в своих системах в течение неопределенного времени. Некоторые, но не все, компании заявляют, что они обезличивают личную информацию, прежде чем использовать ее в учебных целях. А некоторые разработчики позволяют людям просматривать расшифровки чатов пользователей в целях обучения моделей.

В случае с мультипродуктовыми компаниями, такими как Google, Meta, Microsoft и Amazon, взаимодействие с пользователями также обычно объединяется с информацией, полученной из других продуктов, которые потребители используют на этих платформах — поисковые запросы, продажи/покупки, взаимодействие с социальными сетями и тому подобное.

Эти методы могут стать проблематичными, когда, например, пользователи обмениваются персональными биометрическими и медицинскими данными, не задумываясь о последствиях. Вот реалистичный сценарий: представьте, что вы просите у магистра права идеи для ужина. Может быть, вы указываете, что хотите рецепты с низким содержанием сахара или полезные для сердца. Чат-бот может сделать выводы на основе этих входных данных, и алгоритм может решить, что вы подходите под классификацию как лицо, уязвимое для здоровья.

«Эта решимость прокладывает себе путь через экосистему разработчика. Вы начинаете видеть рекламу лекарств, и легко понять, как эта информация может оказаться в руках страховой компании. Эффекты со временем нарастают», — объясняет Кинг.

Еще один тревожный сигнал, обнаруженный исследователями, касается конфиденциальности детей: практики разработчиков в этом отношении различаются, но большинство из них не предпринимают шагов по удалению вклада детей из своих процессов сбора данных и моделирования обучения. Ранее в этом году Google объявила, что будет обучать свои модели на данных подростков, если они согласятся на это.

В отличие от этого, Anthropic заявляет, что не собирает данные о детях и не позволяет пользователям младше 18 лет создавать учетные записи, хотя и не требует проверки возраста. А Microsoft заявляет, что собирает данные о детях младше 18 лет, но не использует их для построения языковых моделей. Все эти практики вызывают проблемы с согласием, поскольку дети не могут юридически дать согласие на сбор и использование их данных.

Искусственный интеллект, сохраняющий конфиденциальность
Ученые из Стэнфорда заметили, что в политике конфиденциальности разработчиков отсутствует важная информация об их практике. Они рекомендуют политикам и разработчикам решать проблемы конфиденциальности данных, связанные с чат-ботами на базе LLM, с помощью всеобъемлющего федерального регулирования конфиденциальности, утвердительного согласия на обучение моделей и фильтрации личной информации из чата по умолчанию.

«Как общество, мы должны взвесить, стоит ли потенциальный выигрыш в возможностях искусственного интеллекта от обучения на данных чата значительной потери конфиденциальности потребителей. И мы должны продвигать инновации в области искусственного интеллекта, сохраняющего конфиденциальность, чтобы конфиденциальность пользователей не была второстепенной задачей», — заключает Кинг.

Купите Ноутбуки в Москве в интернет магазине SMP-Laptops
SMP-LAPTOPS – купить товары в каталоге на Яндекс Маркет