Добавить в корзинуПозвонить
Найти в Дзене
ИИ-Новости

Nvidia поймали на пиратстве? Как один иск может обнулить всю индустрию ИИ?

Новый виток судебного разбирательства против технологического гиганта Nvidia раскрывает нелицеприятные подробности того, как обучались их языковые модели (в частности, платформа NeMo). Авторы популярных книг подали измененный иск, в который добавили доказательства прямого использования нелегального контента.
Что это значит?
Если суд встанет на сторону авторов, это может создать прецедент, который
Оглавление

Новый виток судебного разбирательства против технологического гиганта Nvidia раскрывает нелицеприятные подробности того, как обучались их языковые модели (в частности, платформа NeMo). Авторы популярных книг подали измененный иск, в который добавили доказательства прямого использования нелегального контента.

Nvidia
Nvidia

Главные факты из документа:

  • Сделка с «теневой библиотекой»: В документе утверждается, что команда Nvidia по стратегии данных (Data Strategy Team) напрямую контактировала с администрацией ресурса Anna’s Archive (известного «зеркала» пиратских библиотек вроде Z-Library и Sci-Hub). Цель — покупка высокоскоростного доступа к их базе данных для скачивания миллионов защищенных авторским правом книг.
  • Использование датасета Books3: Иск подтверждает, что Nvidia обучала свои модели на наборе данных Books3, который входит в состав более крупного датасета The Pile. Books3 фактически является копией архива «пиратского» сайта Bibliotik, содержащего почти 200 тысяч книг.
  • «Статистические корреляции» вместо творчества: Позиция Nvidia в суде строится на том, что использование книг — это «добросовестное использование» (Fair Use). Компания утверждает, что их модели не копируют книги, а лишь извлекают из них статистические закономерности. Однако авторы настаивают: компания заработала триллионы на продуктах, созданных с помощью кражи их интеллектуального труда.
  • Признание вины через удаление: Адвокаты истцов указывают на то, что когда информация о нарушении прав стала публичной, Nvidia удалила ссылки на спорные датасеты. В иске это трактуется как косвенное признание того, что компания знала о незаконности происхождения данных.

Что это значит?

Если суд встанет на сторону авторов, это может создать прецедент, который заставит AI-компании либо платить огромные роялти за каждый текст, либо полностью переобучать модели «с нуля» на легальных данных.

🔗 Кто еще замешан:

Для тех, кто хочет изучить «кухню» обучения современных ИИ, вот главные действующие лица и ресурсы:

  • The Pile (EleutherAI): Тот самый гигантский набор данных (825 ГБ), в который входила скандальная подборка Books3. Сейчас EleutherAI активно продвигает этичные датасеты без нарушения копирайта.
  • Authors Guild (Гильдия авторов): Крупнейшая организация защитников прав писателей в США, которая активно судится не только с Nvidia, но и с OpenAI и Anthropic. У них есть специальный раздел по ИИ, где можно следить за всеми исками.
  • Hugging Face: Платформа, где Nvidia размещала свои модели NeMo. Именно здесь в описаниях моделей журналисты и нашли подтверждения того, что нейронки обучались на датасете The Pile.
  • Anna’s Archive: Теневая библиотека, которая упоминается в иске как источник данных. Ссылка дана исключительно для понимания контекста судебного дела.
Видеокарта Nvidia, обмотанная цепями из старых книг (сгенирировано в @nano_bananos_bot)
Видеокарта Nvidia, обмотанная цепями из старых книг (сгенирировано в @nano_bananos_bot)

Как думаешь, не убьет ли такая жесткая защита авторских прав развитие маленьких нейросетей-стартапов, у которых нет миллиардов на лицензии?