"The New York Times" провели расследование, в ходе которого было обнаружено, что OpenAI, Google и Meta игнорировали корпоративную политику, меняли свои собственные правила и обсуждали обход закона об авторском праве при поиске онлайн-информации для обучения своих новейших систем ИИ:
"В конце 2021 года OpenAI столкнулась с проблемой предложения. Лаборатория ИИ, разрабатывая свою новейшую систему ИИ, исчерпала все запасы авторитетных англоязычных текстов в Интернете. Для обучения следующей версии требовалось больше данных — гораздо больше. Поэтому исследователи OpenAI создали инструмент распознавания речи под названием Whisper. Он мог расшифровывать аудио из YouTube-видеороликов, получая новые диалоговые тексты, которые должны были сделать систему с ИИ умнее.
Некоторые сотрудники OpenAI обсуждали противоречия такого шага правилам YouTube, рассказали три человека, знакомые с обсуждением. YouTube, принадлежащий Google, запрещает использовать свои видео для приложений, «независимых» от видеоплатформы.
Как рассказали источники, в конечном итоге команда OpenAI расшифровала более миллиона часов видео с YouTube. По словам двух человек, в команду входил Greg Brockman, президент OpenAI, который лично помогал собирать видео. После расшифровки тексты загружались в систему под названием GPT-4, которая считалась одной из самых мощных в мире моделей ИИ и которая легла в основу последней версии чат-бота ChatGPT.
Гонка за лидерство в области ИИ превратилась в отчаянную охоту за цифровыми данными, необходимыми для развития технологий. Согласно исследованию The New York Times, чтобы получить эти данные, технологические компании, включая OpenAI, Google и Meta, срезали углы, игнорировали корпоративную политику и обсуждали возможность нарушения закона.
Согласно записям внутренних встреч, полученным The Times, в Meta, владеющей Facebook и Instagram, в прошлом году менеджеры, юристы и инженеры обсуждали покупку издательского дома Simon & Schuster для приобретения объемных работ. Они также договорились о сборе данных, защищенных авторским правом, со всего Интернета, даже если это означало бы судебные иски. По их словам, переговоры о лицензиях с издателями, художниками, музыкантами и представителями новостной индустрии займут слишком много времени.
Как и OpenAI, компания Google расшифровывала видео с YouTube для сбора текста для своих моделей ИИ, рассказали пять человек, знакомых с практикой компании. Это потенциально нарушало авторские права на видеоролики, принадлежащие их создателям.
В прошлом году Google также расширила условия обслуживания. По словам членов команды по обеспечению конфиденциальности компании и внутреннего сообщения, просмотренного The Times, одной из причин изменения было предоставление Google возможности использовать общедоступные Google Docs, обзоры ресторанов на Google Maps и другие онлайн-материалы для большинства своих продуктов ИИ.
Действия компаний иллюстрируют, как онлайн-информация — новости, художественные произведения, сообщения на досках объявлений, статьи в Википедии, компьютерные программы, фотографии, подкасты и видеоролики — все чаще становится источником жизненной силы быстро развивающейся индустрии ИИ. Создание инновационных систем зависит от наличия достаточного количества данных, чтобы научить технологии мгновенно создавать текст, изображения, звуки и видео, напоминающие то, что создает человек.
Объем данных имеет решающее значение. Ведущие системы чат-ботов извлекают уроки из пулов цифрового текста, охватывающих три триллиона слов, что примерно в два раза больше слов, хранящихся в Bodleian Library Оксфордского университета, которая собирает рукописи с 1602 года. Разработчики ИИ говорят, что для них наиболее ценные данные - высококачественная информация, такая как опубликованные книги и статьи, тщательно написанные и отредактированные профессионалами.
В течение многих лет Интернет с такими сайтами, как Википедия и Reddit, казался бесконечным источником данных. Но по мере развития ИИ технологические компании ищут больше хранилищ информации. Google и Meta, у которых есть миллиарды пользователей, которые ежедневно создают поисковые запросы и публикуют сообщения в социальных сетях, были в значительной степени ограничены законами о конфиденциальности и их собственной политикой в использовании большей части этого контента для ИИ.
Их ситуация неотложная. По данным исследовательского института Epoch, технологические компании пройдут через все высококачественные данные в Интернете уже в 2026 году. Компании используют данные быстрее, чем они производятся.
«Единственный практический способ существования этих инструментов — их обучение на огромных объемах данных без необходимости лицензировать эти данные, — сказал в прошлом году в публичной дискуссии по поводу закона об авторском праве о моделях ИИ Sy Damle, юрист, представляющий Andreessen Horowitz, венчурную фирму Кремниевой долины. - Необходим настолько большой объем данных, что даже коллективное лицензирование не поможет».
Технологические компании настолько жаждут новых данных, что некоторые из них разрабатывают «синтетическую» информацию. Это не органические данные, созданные людьми, а текст, изображения и код, которые создают модели ИИ — другими словами, системы учатся на том, что они генерируют сами.
В OpenAI заявили, что каждая из ее моделей ИИ «имеет уникальный набор данных, который мы курируем, чтобы помочь им понять мир и оставаться в исследованиях конкурентоспособными на глобальном уровне». В Google заявили, что ее модели ИИ «обучены на некотором контенте YouTube», что разрешено соглашениями с создателями YouTube, и что компания не использовала данные из офисных приложений за пределами экспериментальной программы. Meta заявила, что «сделала агрессивные инвестиции» в интеграцию ИИ в свои сервисы и располагает миллиардами общедоступных изображений и видео из Instagram и Facebook для обучения своих моделей.
Растущее использование работ компаниями, занимающимися ИИ, привело к судебным искам по поводу авторских прав и лицензирования. В прошлом году The Times подала в суд на OpenAI и Microsoft за использование новостных статей, защищенных авторским правом без разрешения на обучение чат-ботов с ИИ. OpenAI и Microsoft заявили, что использование статей является «добросовестным использованием» или разрешено законом об авторском праве, поскольку они преобразовывали произведения для другой цели.
В прошлом году более 10 000 профессиональных групп, авторов, компаний и других лиц предоставили комментарии об использовании творческих работ моделями ИИ в Copyright Office - федеральное агентство, которое готовит руководство о том, как закон об авторском праве применяется в эпоху ИИ.
Justine Bateman, кинорежиссер, бывшая актриса и автор двух книг, сообщила Copyright Office, что модели ИИ брали контент, включая ее произведения и фильмы, без разрешения и оплаты. «Это крупнейшая кража в Соединенных Штатах», — сказала она в интервью.
«Масштаб — это все, что вам нужно».
В январе 2020 года Jared Kaplan, физик-теоретик из Университета Джонса Хопкинса, опубликовал революционную статью об ИИ, которая подогрела аппетит к онлайн-данным.
Его вывод был однозначным: чем больше данных используется при обучении большой языковой модели — технологии, которая управляет онлайн-чат-ботами, — тем лучше она будет работать. Точно так же, как учащийся, кторый читает большее количество книг, узнает больше, языковые модели лучше выявляют закономерности в тексте и становятся более точными, чем большее количество информации они обрабатывают.
«Все были очень удивлены что эти тенденции — законы масштабирования, как мы их называем — были такими же, как те, что вы можете встретить в астрономии или физике», — сказал Kaplan, опубликовавший статью вместе с девятью исследователями OpenAI (сейчас он работает в AI-стартапе Anthropic). Лозунг «масштаб — это все, что вам нужно» вскоре стал объединяющим для ИИ.
Исследователи уже давно используют большие общедоступные базы данных цифровой информации для разработки ИИ, включая Wikipedia и Common Crawl - базу данных, содержащую более 250 миллиардов веб-страниц, собранных с 2007 года. Исследователи часто «очищали» данные, удаляя разжигание ненависти и другой нежелательный текст перед их использованием для обучения моделей ИИ.
В 2020 году наборы данных были крошечными по сегодняшним меркам. Одна база данных, содержащая 30 000 фотографий с фотосайта Flickr, в то время считалась жизненно важным ресурсом.
После статьи Kaplan такого количества данных стало недостаточно. Все свелось к тому, чтобы «просто сделать что-то по-настоящему большое», — сказал Brandon Duderstadt, генеральный директор Nomic, компании в области ИИ в Нью-Йорке.
Представленная OpenAI в ноябре 2020 года GPT-3 была обучена на самом большом на тот день объёме данных — около 300 миллиардов «токенов», которые по сути представляют собой слова или фрагменты слов. Изучив эти данные, система генерировала текст с поразительной точностью, писала сообщения в блогах, стихи и собственные компьютерные программы.
В 2022 году DeepMind, лаборатория ИИ, принадлежащая Google, пошла дальше. Она протестировала 400 моделей ИИ, варьируя объемы обучающих данных и другие факторы. Наиболее эффективные модели использовали даже больше данных, чем предсказывал Kaplan в своей статье. Одна модель - Chinchilla - была обучена на 1,4 триллионах токенов.
Вскоре их обогнали. В прошлом году исследователи из Китая выпустили модель ИИ Skywork, которая была обучена на 3,2 триллионах токенов из английских и китайских текстов. Google также представил систему ИИ PaLM 2, объем которой превысил 3,6 триллиона токенов.
Расшифровка YouTube.
В мае Sam Altman, исполнительный директор OpenAI, признал, что компании, занимающиеся ИИ, будут использовать все ценные данные в Интернете.
«Эти ресурсы закончатся», — сказал он в своем выступлении на технологической конференции. Альтман считал, что предел уже близок. В OpenAI исследователи годами собирали данные, очищали их и помещали в огромный текстовый массив для обучения языковых моделей компании. Они изучили репозиторий компьютерного кода GitHub, отработалии базу данных шахматных ходов и использовали данные, описывающие школьные тесты и домашние задания с веб-сайта Quizlet.
К концу 2021 года эти запасы были исчерпаны, рассказали восемь человек, знакомые с компанией, но не уполномоченные выступать публично.
OpenAI отчаянно нуждалась в дополнительных данных для разработки своей модели ИИ следующего поколения - GPT-4. По словам людей, сотрудники обсуждали расшифровку подкастов, аудиокниг и видеороликов на YouTube. Они говорили о создании данных с нуля с помощью систем ИИ. Они также рассматривали возможность покупки стартапов, которые собрали большие объемы цифровых данных.
По словам шести человек, OpenAI в конечном итоге создала Whisper - инструмент распознавания речи для расшифровки видео и подкастов на YouTube. Но YouTube запрещает людям не только использовать их видео для «независимых» приложений, но и получать доступ к видео «любыми автоматизированными средствами (такими как роботы, ботнеты или парсеры)».
Люди рассказывали, что сотрудники OpenAI знали, что вступают в серую зону закона, но считали, что обучение ИИ с помощью видео является добросовестным использованием. Brockman, президент OpenAI, был указан в исследовательской работе как создатель Whisper. По словам двух человек, он лично помогал собирать видео на YouTube и использовать их в технологии.
Brockman комментировал запросы к OpenAI, в которых заявлял, что они используют «многочисленные источники» данных. В прошлом году OpenAI выпустила GPT-4, основанную на более чем миллионе часов видео YouTube, расшифрованных Whisper. Brockman возглавлял команду, разработавшую GPT-4.
По словам двух человек, знакомых с компаниями, некоторые сотрудники Google знали, что OpenAI обрабатывала видео с YouTube для сбора данных. Но они не препятствовали OpenAI, потому что компания Google сама использовала расшифровки видеороликов YouTube для обучения своих моделей ИИ, говорят источники. Такая практика могла нарушать авторские права авторов YouTube. Поэтому, если Google поднял бы шум вокруг OpenAI, мог бы возникнуть общественный резонанс против ее собственных методов, как говорили люди.
Matt Bryant, представитель Google, заявил, что компания ничего не знает о методах OpenAI и запретил «несанкционированное сканирование или загрузку контента YouTube». По его словам, Google принимает меры, когда у нее есть для этого четкая юридическая или техническая основа.
Правила Google разрешали использовать данные пользователей YouTube для разработки новых функций для видеоплатформы. Но было неясно, сможет ли Google использовать данные YouTube для создания коммерческого сервиса за пределами видеоплатформы, такого как чат-бот.
Geoffrey Lottenberg, юрист по интеллектуальной собственности юридической фирмы Berger Singerman, сказал, что формулировки Google о том, что она может или не может делать с расшифровками видео YouTube, являются расплывчатыми.
«Могут ли данные быть использованы для новой коммерческой услуги, остается открытым для интерпретации и может быть оспорено в судебном порядке», — сказал он.
В конце 2022 года, после того как OpenAI выпустила ChatGPT и начала общеотраслевую гонку преследования, исследователи и инженеры Google обсудили возможность использования других пользовательских данных. Миллиарды слов хранятся в Google Docs и других бесплатных приложениях Google. Но ограничения конфиденциальности, принятые компанией, сокращают возможности использования данных, как рассказали три человека, знакомых с практикой Google.
В июне юридический отдел Google обратился к команде по конфиденциальности с просьбой разработать формулировку, чтобы расширить сферу использования данных потребителей, согласно данным двух членов команды по конфиденциальности и внутреннему сообщению, которое стало доступно The Times.
Сотрудникам сказали, что Google хочет использовать общедоступный контент пользователей Google Docs, Google Sheets и других связанных приложений для множества продуктов ИИ. Сотрудники заявили, что не знают, обучала ли ранее компания ИИ работе с такими данными.
В то время в правилах конфиденциальности Google говорилось, что компания может использовать общедоступную информацию только для «помощи в обучении языковых моделей Google и создании таких функций, как Google Translate».
Команда по обеспечению конфиденциальности написала новые условия, чтобы Google мог использовать данные для своих «моделей ИИ и создавать продукты и функции, такие как Google Translate, Bard и Cloud AI», которые представляют собой более широкий набор технологий ИИ.
«Какова здесь конечная цель? — спросил один из членов команды по обеспечению конфиденциальности во внутреннем сообщении. - Как далеко мы можем зайти?» По словам сотрудников, команде было приказано опубликовать новые условия в выходные 4 июля, когда люди обычно сосредоточены на праздниках. Пересмотренная политика дебютировала 1 июля, в начале длинных выходных.
Два сотрудника группы по обеспечению конфиденциальности заявили, что в августе было оказано давление на менеджеров, чтобы Google могла начать использовать данные из бесплатных потребительских версий Google Docs, Google Sheets и Google Slides. По их словам, им не дали четких ответов.
Bryant сказал, что изменения в политике конфиденциальности были внесены для ясности, и что Google не использует информацию из Google Docs или связанных приложений для обучения языковых моделей «без явного разрешения» пользователей, имея в виду добровольную программу, которая позволяет пользователям тестировать экспериментальные модели. «Мы не обучаем на дополнительных типах данных на основе этого изменения», — сказал он.
Дебаты в Meta.
Марк Цукерберг, генеральный директор Meta, инвестировал в развитие ИИ в течение многих лет, но, когда OpenAI выпустила ChatGPT в 2022 году, внезапно оказался позади. Он тут же поставил своей целью добиться соответствия и превосходства над ChatGPT, звоня руководителям и инженерам в любое время дня и ночи, чтобы подтолкнуть их к разработке конкурирующего чат-бота, как рассказали трое сотрудников, которые не были уполномочены обсуждать конфиденциальные разговоры. Но к началу прошлого года Meta столкнулась с тем же препятствием, что и ее конкуренты: недостаток данных.
Ahmad Al-Dahle, вице-президент Meta по генеративному ИИ, рассказал руководителям, что его команда использовала почти все доступные англоязычные книги, эссе, стихотворения и новостные статьи в Интернете для разработки модели, как следует из записей внутренних встреч, которыми они делились с сотрудниками.
Al-Dahle сказал коллегам, что Meta не сможет сравняться с ChatGPT, пока не получит больше данных. В марте и апреле 2023 года некоторые руководители компании по развитию бизнеса, инженеры и юристы встречались практически ежедневно, чтобы решить эту проблему. Некоторые предлагали плату в 10 долларов за книгу для получения полного лицензионного права на новые названия. Они, судя по записям, обсуждали покупку издательства Simon & Schuster, которое издает таких авторов, как Стивен Кинг.
Они также рассказывали о том, как без разрешения брали книги, эссе и другие работы из Интернета и обсуждали возможность использовать больше источников, несмотря на угрозу судебных исков. Один адвокат на встрече предупредил об «этических» сложностях при использовании интеллектуальной собственности деятелей искусства, но, согласно записям, был встречен молчанием. По словам сотрудников, Цукерберг потребовал решения. «Возможности, которые Марк ищет в продукте, — это просто то, что мы в настоящее время не можем обеспечить», — сказал один инженер.
Хотя Meta управляет гигантскими социальными сетями, в ее распоряжении не было большого количества пользовательских постов, рассказали два сотрудника. По их словам, многие пользователи Facebook удаляли свои старые публикации, и эта платформа не использовалась людьми для написаниия контента в стиле эссе.
Meta также была ограничена принципами конфиденциальности, которые она ввела после скандала 2018 года, связанного с передачей данных своих пользователей компании Cambridge Analytica, занимающейся составлением профилей избирателей. Цукерберг в недавнем разговоре с инвесторами заявил, что миллиарды общедоступных видео и фотографий в Facebook и Instagram «больше, чем набор данных Common Crawl».
В записанных обсуждениях руководители Meta рассказывали о том, как они наняли подрядчиков в Африке для получения художественной и документальной литературы. В сводках содержался контент, защищенный авторским правом, «потому что у нас нет возможности не собирать его», - сказал менеджер на одной из встреч.
Руководители Meta заявили, что OpenAI, судя по всему, без разрешения использовала материалы, защищенные авторским правом. Судя по записям, Meta потребовалось бы слишком много времени, чтобы договориться о лицензиях с издателями, артистами, музыкантами и новостной индустрией.
«Единственное, что не дает нам быть такими же хорошими, как ChatGPT, — это именно объем данных», — сказал на одной из встреч Nick Grudin, вице-президент по глобальному партнерству и контенту. Он также добавлял, что OpenAI, похоже, использует материалы, защищенные авторским правом, и Meta может последовать этому «рыночному прецеденту».
Согласно записям, руководители Meta согласились опираться на решение суда 2015 года по делу Гильдии авторов против Google, согласно которому Google было разрешено сканировать, оцифровывать и каталогизировать книги в онлайн-базе данных после того, как она заявила, что воспроизводила в Интернете только фрагменты произведений и преобразовывала оригиналы, что сделало их добросовестными пользователями.
Использование данных для обучения систем ИИ, как заявляли на своих встречах юристы Meta, также должно быть добросовестным. Судя по записям, как минимум два сотрудника выразили обеспокоенность по поводу использования интеллектуальной собственности и несправедливой оплаты или вообще ее отсутствия. Один из сотрудников рассказал об отдельном обсуждении данных, защищенных авторским правом, с высшими руководителями, включая Chris Cox, директора по продуктам Meta, и сказал, что никто на этой встрече не рассматривал этику использования работ людей творческих профессий.
«Синтетические» данные.
Альтман из OpenAI разработал план борьбы с надвигающейся нехваткой данных. "Такие компании, как наша, - сказал он на майской конференции, - в конечном итоге программы ИИ будут обучать на "синтетических данных", то есть используя текст, сгенерированный ИИ. Поскольку программа ИИ может создавать человекоподобныt текстs, как утверждают Альтман и другие, системы могут генерировать дополнительные данные для разработки лучших версий самих себя. Это может помочь разработчикам создавать более мощные технологии и уменьшить их зависимость от данных, защищенных авторским правом.
«Пока вы будете преодолевать горизонт событий на основе синтетических данных, так как модель достаточно умна, чтобы создавать хорошие синтетические данные, все будет в порядке», — сказал Альтман.
Исследователи ИИ уже много лет изучают синтетические данные. Но легче сказать о создании системы ИИ, способной самообучаться, чем ее сделать. Модели ИИ, которые учатся на собственных результатах, могут попасть в петлю, в которой они будут усиливать свои собственные причуды, ошибки и ограничения.
«Данные, необходимые этим системам, подобны тропе через джунгли», — сказал Jeff Clune, бывший исследователь OpenAI, который сейчас преподает информатику в Университете Британской Колумбии. - Если программы будут тренироваться только на синтетических данных, они могут заблудиться в джунглях».
Чтобы бороться с этим, OpenAI и другие компании исследуют взаимодействие двух разных моделей ИИ для генерации полезных и надежных синтетических данных. При этом одна система производит данные, а вторая оценивает информацию, чтобы отличить хорошую от плохой. Мнения исследователей относительно того, будет ли этот метод работать, разделились. Тем не менее, руководители разработок программ с ИИ стремительно продвигаются вперед.
«Все должно быть в порядке», — заявил Альтман на конференции."
Телеграм-канал "Интриги книги"
Как технологические гиганты собирают данные для ИИ.
15 апреля 202415 апр 2024
2
18 мин