20,3 тыс подписчиков

Сообщается, что Nvidia была поймана на выуживании данных ИИ из Netflix и YouTube (снова)

15 августа 202415 авг 2024

2 мин

Согласно разоблачительному отчету 404 Media, подкрепленному внутренними чатами в Slack, электронными письмами и документами, полученными изданием, Nvidia помогала себе "визуальным опытом человеческой жизни стоимостью обучающих данных в день", - признался Минг-Ю Лю, вице-президент по исследованиям Nvidia и руководитель проекта Cosmos, в майском электронном письме. Неназванные бывшие сотрудники Nvidia рассказали 404, что их просили соскабливать видеоконтент с Netflix, YouTube и других онлайн-источников, чтобы получить обучающие данные для использования в различных продуктах ИИ компании. Среди них - генератор трехмерных миров Omniverse от Nvidia, системы для самоуправляемых автомобилей и "цифровой человек". Когда эти сотрудники спрашивали о законности проекта, получившего внутреннее название Cosmos, руководство уверяло их, что они получили разрешение на использование этого контента от высшего руководства компании. Проект был нацелен на создание базовой модели, подобной Gemini 1.5, GPT-4

Неназванные бывшие сотрудники Nvidia рассказали 404, что их просили соскабливать видеоконтент с Netflix, YouTube и других онлайн-источников, чтобы получить обучающие данные для использования в различных продуктах ИИ компании. Среди них - генератор трехмерных миров Omniverse от Nvidia, системы для самоуправляемых автомобилей и "цифровой человек".

Когда эти сотрудники спрашивали о законности проекта, получившего внутреннее название Cosmos, руководство уверяло их, что они получили разрешение на использование этого контента от высшего руководства компании.

Проект был нацелен на создание базовой модели, подобной Gemini 1.5, GPT-4 или Llama 3.1, "которая объединит моделирование транспортировки света, физику и интеллект в одном месте, чтобы разблокировать различные последующие приложения, важные для Nvidia".

Для этого проект Cosmos якобы использовал загрузчик видео с открытым исходным кодом и применял машинное обучение для IP-перехода, чтобы избежать попыток YouTube заблокировать его. Согласно электронным письмам, с которыми ознакомился портал 404, руководители проекта обсуждали использование до 30 виртуальных машин, работающих на Amazon Web Services, для ежедневной загрузки полнометражных и отрывочных видеороликов за 80 лет.

Со своей стороны, Nvidia утверждает, что не совершала никаких правонарушений. "Мы уважаем права всех создателей контента и уверены, что наши модели и наши исследования полностью соответствуют букве и духу закона об авторском праве", - заявил представитель Nvidia по электронной почте 404 Media. "Закон об авторском праве защищает отдельные выражения, но не факты, идеи, данные или информацию. Любой человек может свободно узнавать факты, идеи, данные или информацию из другого источника и использовать их для создания своих собственных выражений. Добросовестное использование также защищает возможность использовать произведение в преобразующих целях, например для обучения моделей".

Это далеко не первый случай, когда Nvidia (не говоря уже о подавляющем большинстве других разработчиков ИИ) использует подход "сначала соскоблить, а потом попросить прощения" в своей работе по обучению ИИ. В июле Nvidia, наряду с Anthropic и Salesforce, была упомянута в другом отчете о незаконном соскабливании видео, защищенных авторским правом.

На выставке CES 2024 компания вызвала бурю в интернете своими неоднозначными ответами о том, как обучался ее новый генеративный ИИ для игровых движков. В ответ Nvidia вновь заявила, что ее инструменты "коммерчески безопасны".

Если вам понравилась эта статья, подпишитесь на нее, чтобы не пропустить новые полезные статьи!

Вы также можете читать меня в:

Telegram: https://t.me/gergenshin
Яндекс Дзен: https://dzen.ru/gergen
Официальный сайт: https://www-genshin.ru