11 подписчиков

Meta и OpenAI эксплуатируют людей и используют пиратский контент?

3 сентября 20233 сен 2023

3 мин

В недавнем исследовании, газета Atlantic рассказала о том, как OpenAI, Meta и другие технологические компании используют пиратские книги из теневых библиотек, не платя ничего за содержание, которое служит основой для обучения и питания их больших языковых моделей.

Для обучения своих моделей OpenAI использует Books1 и Books2 - два блока книг, взятых из интернета. Примерно 15% обучающего набора для GPT-3 составляют именно эти базы данных. Авторы, подавшие в суд на OpenAI, утверждают, что компания наполнила Books2 пиратскими книгами из таких теневых библиотек, как Library Genesis, Z-Library, Sci-Hub и Bibliotik.

Аналогичным образом, набор данных, используемый компанией Meta и проанализированный изданием Atlantic, содержал более 170 000 книг, большинство из которых был

Крупные технологические компании используют опубликованные книги для обучения моделей искусственного интеллекта не только без получения разрешения от авторов, но и путем пиратства и отказа авторам в отчислениях от продаж.

В недавнем исследовании, газета Atlantic рассказала о том, как OpenAI, Meta и другие технологические компании используют пиратские книги из теневых библиотек, не платя ничего за содержание, которое служит основой для обучения и питания их больших языковых моделей.

Для обучения своих моделей OpenAI использует Books1 и Books2 - два блока книг, взятых из интернета. Примерно 15% обучающего набора для GPT-3 составляют именно эти базы данных. Авторы, подавшие в суд на OpenAI, утверждают, что компания наполнила Books2 пиратскими книгами из таких теневых библиотек, как Library Genesis, Z-Library, Sci-Hub и Bibliotik.

Аналогичным образом, набор данных, используемый компанией Meta и проанализированный изданием Atlantic, содержал более 170 000 книг, большинство из которых были опубликованы в последние два десятилетия. Эти книги, входящие в блок под названием Books3, также использовались для обучения других языковых моделей. "Пиратские книги используются в качестве исходных данных для компьютерных программ, которые меняют то, как мы читаем, учимся и общаемся", - отметил Алекс Рейснер, автор статьи в Atlantic. "Будущее, обещанное искусственным интеллектом, написано крадеными словами".

Против компании OpenAI, создателя ChatGPT, уже подан ряд исков о защите авторских прав за использование авторского контента без согласия и компенсации.

Привычка к пиратству иллюстрирует стремление больших ИИ-компаний ужимать копейки там, где можно эксплуатировать людей. Годовая зарплата инженера-программиста в OpenAI, который работает над содержанием этих книг, составляет до 370 тыс. долларов. Однако многие авторы книг никогда в жизни не получат такого дохода от своей работы, а между тем их труд используется для совершенствования и коммерциализации движков ИИ.

Хотя в июне стоимость компании OpenAI выросла до 29 млрд. долларов, ранее ее также обвиняли в том, что она наняла калифорнийское агентство Sama, которое якобы недоплачивало кенийским рабочим для совершенствования ChatGPT. Кенийские рабочие получали от 1,32 до 2 долл. в час, что составляет лишь малую долю от минимальной заработной платы в Калифорнии, равной 16,99 долл. в час.

Компания Meta также оказалась под ударом по аналогичным причинам. В марте этого года компания Meta заявила, что отныне её крупнейшие инвестиции будут направлены на развитие искусственного интеллекта, а месяц спустя она объявила, что потратит 33 млрд. долларов на "внедрение агентов искусственного интеллекта в жизнь миллиардов людей, причём так, чтобы это было полезно и значимо". В июне компания выпустила Llama 2, свою последнюю крупную языковую модель для коммерческого использования.

Однако, несмотря на эти грандиозные заявления о расходах, в адрес Meta поступают обвинения в том, что её субподрядчики, нанятые через компанию Sama, работают в плохих условиях. В прошлом году один из таких бывших сотрудников подал в суд на Meta и Sama в Найроби, обвинив их в трудовой эксплуатации и подавлении попыток организовать профсоюз.

Google инвестировал 300 млн. долл. в компанию Anthropic, основанную бывшими сотрудниками OpenAI и создавшую чатбота Claude, конкурирующего с ChatGPT. Неясно, сколько Google инвестировала в свой собственный чат-бот Bard, который был выпущен для широкой аудитории на более чем 40 языках.

При этом многие сотрудники, нанятые для обучения Bard, как сообщается, перегружены работой, недостаточно обучены и получают низкую зарплату. Некоторые подрядчики, которым приходится выполнять сложный текстовый аудит в сжатые сроки, получают всего 14 долл. в час. Для сравнения, медианная зарплата инженера по искусственному интеллекту в Google составляет 230 тыс. долларов.

Подписывайтесь на канал! Будем интересоваться вместе!