Крупные технологические компании используют опубликованные книги для обучения моделей искусственного интеллекта не только без получения разрешения от авторов, но и путем пиратства и отказа авторам в отчислениях от продаж.
В недавнем исследовании, газета Atlantic рассказала о том, как OpenAI, Meta и другие технологические компании используют пиратские книги из теневых библиотек, не платя ничего за содержание, которое служит основой для обучения и питания их больших языковых моделей.
Для обучения своих моделей OpenAI использует Books1 и Books2 - два блока книг, взятых из интернета. Примерно 15% обучающего набора для GPT-3 составляют именно эти базы данных. Авторы, подавшие в суд на OpenAI, утверждают, что компания наполнила Books2 пиратскими книгами из таких теневых библиотек, как Library Genesis, Z-Library, Sci-Hub и Bibliotik.
Аналогичным образом, набор данных, используемый компанией Meta и проанализированный изданием Atlantic, содержал более 170 000 книг, большинство из которых были опубликованы в последние два десятилетия. Эти книги, входящие в блок под названием Books3, также использовались для обучения других языковых моделей. "Пиратские книги используются в качестве исходных данных для компьютерных программ, которые меняют то, как мы читаем, учимся и общаемся", - отметил Алекс Рейснер, автор статьи в Atlantic. "Будущее, обещанное искусственным интеллектом, написано крадеными словами".
Против компании OpenAI, создателя ChatGPT, уже подан ряд исков о защите авторских прав за использование авторского контента без согласия и компенсации.
Привычка к пиратству иллюстрирует стремление больших ИИ-компаний ужимать копейки там, где можно эксплуатировать людей. Годовая зарплата инженера-программиста в OpenAI, который работает над содержанием этих книг, составляет до 370 тыс. долларов. Однако многие авторы книг никогда в жизни не получат такого дохода от своей работы, а между тем их труд используется для совершенствования и коммерциализации движков ИИ.
Хотя в июне стоимость компании OpenAI выросла до 29 млрд. долларов, ранее ее также обвиняли в том, что она наняла калифорнийское агентство Sama, которое якобы недоплачивало кенийским рабочим для совершенствования ChatGPT. Кенийские рабочие получали от 1,32 до 2 долл. в час, что составляет лишь малую долю от минимальной заработной платы в Калифорнии, равной 16,99 долл. в час.
Компания Meta также оказалась под ударом по аналогичным причинам. В марте этого года компания Meta заявила, что отныне её крупнейшие инвестиции будут направлены на развитие искусственного интеллекта, а месяц спустя она объявила, что потратит 33 млрд. долларов на "внедрение агентов искусственного интеллекта в жизнь миллиардов людей, причём так, чтобы это было полезно и значимо". В июне компания выпустила Llama 2, свою последнюю крупную языковую модель для коммерческого использования.
Однако, несмотря на эти грандиозные заявления о расходах, в адрес Meta поступают обвинения в том, что её субподрядчики, нанятые через компанию Sama, работают в плохих условиях. В прошлом году один из таких бывших сотрудников подал в суд на Meta и Sama в Найроби, обвинив их в трудовой эксплуатации и подавлении попыток организовать профсоюз.
Google инвестировал 300 млн. долл. в компанию Anthropic, основанную бывшими сотрудниками OpenAI и создавшую чатбота Claude, конкурирующего с ChatGPT. Неясно, сколько Google инвестировала в свой собственный чат-бот Bard, который был выпущен для широкой аудитории на более чем 40 языках.
При этом многие сотрудники, нанятые для обучения Bard, как сообщается, перегружены работой, недостаточно обучены и получают низкую зарплату. Некоторые подрядчики, которым приходится выполнять сложный текстовый аудит в сжатые сроки, получают всего 14 долл. в час. Для сравнения, медианная зарплата инженера по искусственному интеллекту в Google составляет 230 тыс. долларов.
Подписывайтесь на канал! Будем интересоваться вместе!