Крупные технологические компании используют опубликованные книги для обучения моделей искусственного интеллекта не только без получения разрешения от авторов, но и путем пиратства и отказа авторам в отчислениях от продаж.
В недавнем исследовании, газета Atlantic рассказала о том, как OpenAI, Meta и другие технологические компании используют пиратские книги из теневых библиотек, не платя ничего за содержание, которое служит основой для обучения и питания их больших языковых моделей.
Для обучения своих моделей OpenAI использует Books1 и Books2 - два блока книг, взятых из интернета. Примерно 15% обучающего набора для GPT-3 составляют именно эти базы данных. Авторы, подавшие в суд на OpenAI, утверждают, что компания наполнила Books2 пиратскими книгами из таких теневых библиотек, как Library Genesis, Z-Library, Sci-Hub и Bibliotik.
Аналогичным образом, набор данных, используемый компанией Meta и проанализированный изданием Atlantic, содержал более 170 000 книг, большинство из которых был