Компании обучают свои генеративные модели ИИ на огромных массивах Интернета, и нет никакого реального способа остановить их.
Художники и писатели в восторге от генеративных систем искусственного интеллекта - и это понятно. Эти модели машинного обучения способны выдавать изображения и тексты только потому, что они были обучены на горах творческих работ реальных людей, большая часть которых защищена авторским правом. Крупнейшие разработчики ИИ, такие как OpenAI, Meta и Stability AI, сегодня сталкиваются с многочисленными судебными исками по этому поводу. Подобные юридические претензии подтверждаются независимыми анализами: например, в августе издание Atlantic сообщило, что Meta обучила свою большую языковую модель (LLM - Large Language Model) частично на наборе данных Books3, который содержал более 170 тыс. пиратских и защищенных авторским правом книг.
А наборы данных для обучения этих моделей включают в себя не только книги. В спешке создания и обучения все более крупных моделей ИИ разработчики перелопатили большую часть поисковой выдачи Интернета. Это не только чревато нарушением авторских прав, но и угрожает конфиденциальности миллиардов людей, обменивающихся информацией в Интернете. Это также означает, что якобы нейтральные модели могут быть обучены на необъективных данных. Отсутствие прозрачности корпораций затрудняет выяснение того, откуда именно компании получают обучающие данные, однако пообщавшись с некоторыми экспертами в области ИИ, которые имеют общее представление об этом, можно увидеть всю картину целиком.
ОТКУДА БЕРУТСЯ ДАННЫЕ ДЛЯ ОБУЧЕНИЯ ИИ?
Для создания больших генеративных моделей ИИ разработчики обращаются к общедоступному Интернету.
"Нет такого места, где можно было бы скачать Интернет", - говорит Эмили М. Бендер, лингвист, изучающая вычислительную лингвистику и языковые технологии в Университете Вашингтона.
Вместо этого разработчики собирают свои обучающие наборы с помощью автоматизированных инструментов, которые каталогизируют и извлекают данные из Интернета. Веб-краулеры переходят от ссылки к ссылке, индексируя расположение информации в базе данных, а "скраперы" (также известные как "парсеры") загружают и извлекают ту же самую информацию.
По словам исследователя машинного обучения Джесси Доджа из некоммерческого Института искусственного интеллекта Аллена, компания с очень большими ресурсами, например, владелец Google, компания Alphabet, которая уже создает веб-краулеры для своей поисковой системы, может использовать для решения этой задачи собственные инструменты. Другие компании, однако, обращаются к существующим ресурсам, таким как Common Crawl, с помощью которого был создан OpenAI GPT-3, или к базам данных, таким как Large-Scale Artificial Intelligence Open Network (LAION), содержащим ссылки на изображения и сопровождающие их подписи. Ни Common Crawl, ни LAION не ответили на просьбу о комментарии. Компании, желающие использовать LAION в качестве ресурса искусственного интеллекта (по словам Доджа, она была частью обучающего набора для генератора изображений Stable Diffusion), могут перейти по этим ссылкам, но должны сами загружать содержимое.
Веб-краулеры и скраперы могут легко получить доступ к данным практически из любого места, не находящегося за страницей входа в систему. Профили социальных сетей, установленные на приватный режим, сюда не входят. Но данные, которые можно просмотреть в поисковой системе или без входа на сайт, например, общедоступный профиль LinkedIn, все равно могут быть собраны, говорит Додж. Затем, добавляет он, "есть такие вещи, которые абсолютно точно попадают в эти Web-скребки" - включая блоги, личные веб-страницы и сайты компаний. Сюда же относится все, что находится на популярном сайте обмена фотографиями Flickr, онлайн-маркетах, базах данных регистрации избирателей, правительственных страницах, Wikipedia, Reddit, исследовательских хранилищах, новостных изданиях и академических институтах. Кроме того, существуют сборники пиратского контента и веб-архивы, которые часто содержат данные, уже удаленные из мест их первоначального размещения в Сети. А соскобленные базы данных никуда не исчезают.
"Если в 2018 году с публичного сайта был соскоблен текст, то он будет доступен всегда, независимо от того, удален [сайт или сообщение] или нет", - отмечает Додж.
По словам Бена Чжао, специалиста по информатике из Чикагского университета, некоторые программы по сбору данных и скраперы даже способны преодолевать платные стены, маскируясь под платные аккаунты.
"Вы будете удивлены тем, как далеко готовы зайти эти краулеры и модели-тренажеры ради дополнительных данных", - говорит Чжао.
По данным совместного анализа, проведенного Washington Post и Институтом Аллена, платные новостные сайты были одними из основных источников данных, включенных в базу данных C4 компании Google (используемую для обучения LLM T5 компании Google и LLaMA компании Meta).
Веб-скраперы также могут собирать удивительные виды личной информации неясного происхождения. В качестве примера Чжао приводит случай, когда одна художница обнаружила, что в базу данных LAION попало ее личное диагностическое медицинское изображение. Репортаж из Ars Technica подтвердил слова художницы, а также то, что в том же наборе данных содержатся фотографии медицинских карт тысяч других людей. Невозможно точно определить, как именно эти изображения попали в LAION, но Чжао отмечает, что данные теряются, настройки конфиденциальности часто неактивны, а утечки и нарушения являются обычным явлением. Информация, не предназначенная для публичного Интернета, постоянно попадает туда.
Помимо данных, полученных из таких веб-сборников, компании, занимающиеся разработкой искусственного интеллекта, могут целенаправленно включать в процесс обучения моделей другие источники, в том числе собственные внутренние данные. Так, компания OpenAI настраивает свои модели на основе взаимодействия пользователей со своими чат-ботами. Компания Meta заявила, что ее новейший ИИ был частично обучен на публичных сообщениях Facebook и Instagram. По словам Элона Маска, социальная медиа-платформа X (ранее известная как Twitter) планирует делать то же самое с контентом своих пользователей. Компания Amazon также заявила, что для обучения своего нового ИИ будет использовать голосовые данные из разговоров клиентов с Alexa.
Но помимо этих признаний, в последние месяцы компании все чаще стали проявлять осторожность в раскрытии подробностей о своих наборах данных. Хотя компания Meta в своем техническом документе, посвященном первой версии LLaMA, предложила общую разбивку данных, в выпущенном через несколько месяцев LLaMA 2 информации оказалось гораздо меньше. Компания Google также не указала источники данных в своей недавно выпущенной модели ИИ PaLM2, ограничившись заявлением о том, что для обучения PaLM2 было использовано гораздо больше данных, чем для обучения первоначальной версии PaLM. Компания OpenAI написала, что не будет раскрывать никаких подробностей о наборе данных и методе обучения GPT-4, сославшись на конкуренцию.
ПОЧЕМУ НЕКАЧЕСТВЕННЫЕ УЧЕБНЫЕ ДАННЫЕ ЯВЛЯЮТСЯ ПРОБЛЕМОЙ?
Модели искусственного интеллекта могут воспроизводить те же материалы, которые использовались для их обучения, включая конфиденциальные персональные данные и работы, защищенные авторским правом. Многие широко используемые генеративные модели ИИ имеют блоки, не позволяющие им передавать идентифицирующую информацию о человеке, однако исследователи неоднократно демонстрировали способы обхода этих ограничений. По словам Чжао, для творческих работников, даже если результаты работы ИИ не совсем квалифицируются как плагиат, они могут урезать возможности получения заработной платы, например, подражая уникальным визуальным приемам конкретного художника. Но в отсутствие прозрачности источников данных сложно свалить вину за такие результаты на обучение ИИ, ведь он может случайно "галлюцинировать" проблемный материал.
Отсутствие прозрачности в отношении обучающих данных также порождает серьезные проблемы, связанные с необъективностью данных, считает Мередит Бруссард, журналист, занимающийся исследованием искусственного интеллекта в Нью-Йоркском университете.
"Мы все знаем, что в Интернете есть замечательные материалы, а есть крайне токсичные, - говорит она.
Такие наборы данных, как Common Crawl, например, включают в себя сайты белых супремасистов и язык ненависти. Даже менее экстремальные источники данных содержат контент, способствующий распространению стереотипов. Кроме того, в Интернете много порнографии. В результате, отмечает Бруссард, ИИ-генераторы изображений склонны создавать сексуализированные образы женщин.
"Это предвзятость внутри и предвзятость снаружи", - говорит она.
Бендер разделяет эту обеспокоенность и отмечает, что предвзятость лежит еще глубже - вплоть до того, кто вообще может размещать материалы в Интернете.
"В этом случае будет наблюдаться перекос в сторону богатых, западных, определенных возрастных групп и т.д.", - говорит она. Преследование в Интернете усугубляет проблему, вытесняя маргинальные группы из некоторых онлайновых пространств, добавляет Бендер.
Это означает, что данные, взятые из Интернета, не отражают всего многообразия реального мира. По словам Бендер, трудно понять ценность и целесообразность применения технологии, содержащей искаженную информацию, особенно если компании не говорят открыто о потенциальных источниках предвзятости.
КАК ЗАЩИТИТЬ СВОИ ДАННЫЕ ОТ АИ?
К сожалению, в настоящее время существует очень мало вариантов, позволяющих эффективно защитить данные от попадания в руки моделей искусственного интеллекта. Чжао и его коллеги разработали инструмент под названием Glaze, с помощью которого можно сделать изображения фактически нечитаемыми для моделей ИИ. Однако исследователи смогли проверить его эффективность только на некоторых генераторах изображений, и его применение ограничено. С одной стороны, он может защитить только те изображения, которые ранее не были размещены в Интернете. Все остальное, возможно, уже было собрано в веб-скрап и наборы обучающих данных. Что касается текстов, то подобных инструментов не существует.
По словам Чжао, владельцы сайтов могут вставлять цифровые флажки, запрещающие краулерам и скраперам собирать данные о сайте. Однако решение о соблюдении этих уведомлений остается за разработчиком скрепера.
В Калифорнии и ряде других штатов недавно принятые законы о защите цифровой информации дают потребителям право требовать от компаний удаления своих данных. В Европейском союзе люди также имеют право на удаление данных. Однако до сих пор компании, занимающиеся разработкой искусственного интеллекта, отвечали на такие запросы, заявляя, что происхождение данных невозможно доказать, или вообще игнорируя их, - говорит Дженнифер Кинг (Jennifer King), исследователь конфиденциальности и данных из Стэнфордского университета.
По словам Чжао, даже если компании выполняют такие просьбы и удаляют информацию из обучающего набора, не существует четкой стратегии, как заставить модель искусственного интеллекта отказаться от обучения тому, что она ранее усвоила. По словам Доджа, чтобы действительно извлечь из таких моделей ИИ всю информацию, защищенную авторским правом или являющуюся потенциально конфиденциальной, придется фактически заново обучать ИИ, что может стоить до десятков миллионов долларов.
В настоящее время не существует какой-либо серьезной политики в области ИИ или правовых решений, которые бы требовали от технологических компаний принятия подобных мер, а значит, у них нет стимула возвращаться к чертежной доске.