Кажется, мы все уже привыкли к идее, что крупные технологии (Big Tech) включают в свои «обучающие датасеты» чуть ли не весь доступный им интернет. Но недавнее судебное разбирательство против Meta (компании Марка Цукерберга) добавляет пикантную «пиратскую» составляющую: правообладатели требуют раскрыть логи торрент-клиента, который, по их мнению, использовался для загрузки и распространения миллионов книг из пиратских библиотек.
Почему авторы считают, что Meta «раздавала» книги?
📚 Суть иска
Группа писателей (включая Ричарда Кадрея, Сару Сильверман и Кристофера Голдена) обвиняет Meta в том, что та использовала их произведения (и многих других авторов) без разрешения для обучения своих моделей ИИ (например, LLaMA). Но «изюминкой» стало утверждение, что Meta загрузила книги не просто откуда-то «в тёмном углу интернета», а через сеть BitTorrent с ресурса LibGen — одного из самых известных «теневых» онлайн-хранилищ пиратских книг.
🌐 BitTorrent = распространение
При использовании протокола BitTorrent любой скачивающий (peer) автоматически «отдаёт» другим пользователям фрагменты файлов, когда у него включена «раздача» (seeding). Авторы считают, что Meta не просто скачивала пиратские книги, но фактически помогала распространять их дальше, выступая как «один из узлов» в пиринговой сети.
🗃️ Требование логов
В новом повороте дела истцы (авторы) потребовали у суда обязать Meta предоставить детали о том, какими настройками торрент-клиента пользовалась компания, какие логи велись и была ли активна раздача (seeding) для других пиров. Если Meta действительно «сидировала» файлы, это может усложнить её защиту, ведь речь идёт не только об использовании материалов под защитой авторского права, но и о факте их «дистрибуции».
Технические подробности и правовые последствия
💻 Как обычно ведут себя торрент-клиенты?
- Обычно торрент-клиент автоматически начинает «делиться» скачанным.
- Если юзер не меняет настройки, то при скачивании файла он может «раздавать» те же фрагменты другим участникам.
- Логи или «peer lists» показывают, с какими айпи-адресами велось взаимодействие, в какие моменты и какой объём данных был переслан.
❓ Почему это критично для суда?
- Добросовестное использование? Meta (как и многие AI-разработчики) рассчитывает на «добросовестное использование» (fair use). Но если она участвовала в распространении (а не только во внутреннем использовании материалов), то позиция может оказаться под угрозой.
- Умысел и воля. Авторы предполагают, что Meta знала о пиратском источнике и сознательно включилась в его торрент-сеть. Один из сотрудников Meta даже выразил в переписке сомнения: «Торрентинг с корпоративного ноутбука — это как-то некомфортно...».
🔑 Угол «преднамеренного распространения»
Авторы утверждают, что Meta пыталась замаскировать часть параметров (например, ограничить отдачу, чтобы не «светить» перед всем миром серьёзный трафик), но при этом всё равно оставалась «раздатчиком» книг. Если эти факты подтвердятся, Meta может оказаться не только в фокусе обвинений по «обучению на пиратском контенте», но и по распространению этого контента.
Личное мнение: почему это может стать важным прецедентом
🔥 Новая страница в спорах об AI
До недавнего времени основной аргумент правообладателей — «AI ворует тексты, художественные образы и музыку». Компании, включая Meta, отвечают, что это всего лишь «машинное чтение», к тому же сильно «преобразованное» (трансформированное). Однако, если действительно докажут «участие в пиратской раздаче», то это выходит за рамки классического обсуждения «можно ли обучать модель на чужом тексте». Появляется второе, куда более приземлённое обвинение: несанкционированная дистрибуция чужих книг.
🔎 Объём данных
Речь идёт о миллионах произведений, собранных в базе LibGen или в так называемом Books3 — «слитой» пиратской коллекции, где можно найти чуть ли не весь объем современной литературы. Собирать, хранить локально и ещё распространять дальше — это требует масштабной технической инфраструктуры. Трудно представить, что кто-то в Meta сделал это «по ошибке» — значит, был некий внутренний процесс или проект.
🚀 Насколько глубоко копнут?»
Судебный запрос требует у Meta детальные логи и данные об их торрент-клиентах. Обычно крупные компании, чтобы избежать утечек или конфликтов, стараются не разглашать подобную внутреннюю информацию. Но тут вопрос принципа: если Meta откажется предоставить логи, это может быть расценено как уклонение; если предоставит, то появятся дальнейшие доказательства распространения пиратских файлов.
Ссылки на первоисточник и материалы
- Текст иска против Meta (3-й вариант, Third Amended Complaint):
PDF-версия, ссылка в оригинальном материале - Материалы о LibGen:
LibGen — одна из крупнейших интернет-библиотек, которую издатели и авторы называют нелегальной «теневой» библиотекой.
Итог: Это дело — уникальный пример того, как в спор об обучении нейросетей вмешивается «классический» аспект торрент-пиратства. Если суд сочтёт, что Meta сознательно выступала «распространителем», то защищаться «добросовестным использованием» контента будет уже труднее. С учётом того, насколько востребованы большие языковые модели и сколько средств вкладывают в их развитие, подобные иски могут кардинально повлиять на то, как компании в будущем будут собирать данные для обучения.