Генеральный директор Meta Марк Цукерберг, по-видимому, использовал борьбу YouTube с пиратским контентом, чтобы защитить использование своей компанией набора данных, содержащего электронные книги, защищённые авторским правом, о чём говорится в недавно опубликованных отрывках из показаний, которые он дал в конце прошлого года.
Показания, которые были частью жалобы, поданной в суд адвокатами истцов, связаны с делом об авторских правах на ИИ «Кадри против Meta Platforms». Это одно из многих подобных дел, которые рассматриваются в судебной системе США и в которых компании, занимающиеся ИИ, выступают против авторов и других владельцев интеллектуальной собственности. По большей части ответчики в этих делах — компании, занимающиеся ИИ, — утверждают, что обучение на контенте, защищённом авторским правом, является «добросовестным использованием». Многие владельцы авторских прав с этим не согласны.
«Например, я думаю, что YouTube может в конечном итоге размещать у себя материалы, которые люди пиратски копируют в течение какого-то времени, но YouTube пытается удалять эти материалы, — сказал Цукерберг во время дачи показаний, согласно фрагментам стенограммы, опубликованным в среду вечером. — И я бы предположил, что подавляющее большинство материалов на YouTube в целом хороши, и у них есть на это лицензия».
Фрагменты показаний Цукерберга дают некоторое представление о том, как Цукерберг относится к авторскому праву и добросовестному использованию контента. Однако следует отметить, что полная стенограмма показаний не была опубликована. TechCrunch обратился в Meta за дополнительной информацией и обновит статью, если компания ответит.
Судя по отрывкам из выступления, Цукерберг, по-видимому, защищает использование компанией Meta набора обучающих электронных книг под названием LibGen для разработки семейства моделей ИИ, известных как Llama. Llama от Meta конкурирует с флагманскими моделями таких компаний, как OpenAI.
LibGen, позиционирующий себя как «агрегатор ссылок», предоставляет доступ к произведениям, охраняемым авторским правом, от таких издательств, как Cengage Learning, Macmillan Learning, McGraw Hill и Pearson Education. На LibGen неоднократно подавали в суд, его закрывали и штрафовали на десятки миллионов долларов за нарушение авторских прав.
Согласно судебным документам, обнародованным на этой неделе, Цукерберг якобы одобрил использование LibGen для обучения по крайней мере одной из моделей Llama от Meta, несмотря на опасения руководителей и исследовательских групп компании по поводу юридических последствий.
Адвокат истцов, среди которых авторы бестселлеров Сара Сильверман и Та-Нехиси Коутс, процитировал сотрудников Meta, которые назвали LibGen «набором данных, который, как мы знаем, является пиратским», и отметили, что его использование «может подорвать переговорную позицию [Meta] с регулирующими органами», согласно юридическому документу.
Во время дачи показаний Цукерберг заявил, что «на самом деле не слышал» о LibGen.
«Я понимаю, что вы пытаетесь узнать моё мнение о LibGen, о котором я никогда не слышал, — сказал Цукерберг во время дачи показаний. — Просто я не знаю, что это такое».
Отвечая на вопросы одного из адвокатов истцов, Дэвида Бойса, Цукерберг объяснил, почему было бы неразумно запрещать использование такого набора данных, как LibGen.
«Значит, я бы хотел ввести запрет на использование YouTube, потому что на какой-то контент могут быть авторские права? Нет, — сказал он. — [В] некоторых случаях такой всеобъемлющий запрет может быть неправильным».
Цукерберг заявил, что Meta должна быть «очень осторожна» при обучении на материалах, защищённых авторским правом.
«Знаете, [если есть] кто-то, кто предоставляет веб-сайт и намеренно пытается нарушить права людей… очевидно, что мы хотели бы проявлять осторожность или быть внимательными к тому, как мы взаимодействуем с этим сайтом, или, возможно, даже запретить нашим командам взаимодействовать с ним», — сказал Цукерберг во время дачи показаний, согласно стенограмме.
Новые обвинения
Адвокаты истцов по делу «Кадри против Meta Platforms» несколько раз вносили изменения в иск с тех пор, как он был подан в Окружной суд США по Северному округу Калифорнии, отделение Сан-Франциско, в 2023 году. Последняя изменённая жалоба, поданная адвокатами истцов в среду вечером, содержит новые обвинения в адрес Meta, в том числе в том, что компания сопоставляла некоторые пиратские книги в LibGen с книгами, защищёнными авторским правом, которые можно было приобрести по лицензии. Адвокаты утверждают, что Meta использовала эту тактику, чтобы определить, имеет ли смысл заключать лицензионное соглашение с издателем.
Согласно изменённой заявке, Meta предположительно использовала LibGen для обучения своего последнего семейства моделей Llama, Llama 3. Истцы также утверждают, что Meta использует этот набор данных для обучения своих моделей Llama 4 нового поколения.
Согласно дополненной жалобе, исследователи Meta якобы пытались скрыть тот факт, что модели Llama обучались на материалах, защищенных авторским правом, вставляя «контролируемые образцы» в процесс тонкой настройки Llama. А Meta загружала пиратские электронные книги из другого источника, Z-Library, для обучения Llama вплоть до апреля 2024 года, утверждается в дополненной жалобе.
Z-Library, или Z-Lib, стала предметом ряда судебных исков, поданных издателями, включая изъятие доменов и удаление контента. В 2022 году гражданам России, которые предположительно управляли сайтом, были предъявлены обвинения в нарушении авторских прав, мошенничестве и отмывании денег.