Новый скандал взорвал медиаплатформы, когда выяснилось, что ведущие компании Кремниевой долины использовали видеоролики YouTube для обучения своих ИИ без разрешения. "Это воровство!" - заявил Дэйв Вискус из Nebula. "Я не думал, что мои шутки о теории плоской Земли помогут обучать роботов".
Согласно отчету Proof News, данные из более чем 173 000 видеороликов, включая шоу Колберта и Киммела, использовались для тренировки ИИ гигантами типа Apple и Nvidia. "Я никогда не думал, что мой контент может научить кого-то чему-то", - сказал старожил YouTube, Дэвид Пакман.
Вообразите, что ваши любимые видеоролики на YouTube не только развлекают вас, но и способствуют обучению систем искусственного интеллекта таких крупных компаний, как Apple.
Недавно опубликованный отчёт показал, что ведущие фирмы использовали контент с YouTube для обучения своих систем искусственного интеллекта без получения согласия от создателей контента. Давайте рассмотрим эту ситуацию подробнее.
Компании, занимающиеся разработкой искусственного интеллекта, обычно не раскрывают информацию о том, откуда они получают данные для обучения своих систем. Однако расследование, проведённое Proof News, выявило, что некоторые из крупнейших мировых компаний в сфере искусственного интеллекта использовали материалы из тысяч видеороликов на YouTube для обучения своих систем. И это происходило несмотря на политику YouTube, запрещающую использование материалов с платформы без соответствующего разрешения.
Согласно отчёту, крупные компании Кремниевой долины, такие как Anthropic, Nvidia, Apple и Salesforce, использовали субтитры, которые были извлечены из 173 536 видеороликов на YouTube, взятых с более чем 48 000 каналов.
Набор данных, который получил название «субтитры YouTube», включает в себя видеозаписи с образовательных каналов и онлайн-курсов, таких как Khan Academy, MIT и Гарварда. Также в него вошли материалы от крупных СМИ, таких как The Wall Street Journal, NPR и BBC.
Интересно, что в этот набор данных попали и такие шоу, как «Позднее шоу со Стивеном Колбертом», «На прошлой неделе вечером с Джоном Оливером» и «Джимми Киммел в прямом эфире». Кроме того, при обучении моделей искусственного интеллекта использовались материалы знаменитостей YouTube, таких как MrBeast, Маркес Браунли, Jacksepticeye и PewDiePie. Некоторые из использованных материалов даже содержали теории заговора, например, «теорию плоской Земли».
«Никто не обращался ко мне с предложением использовать мои материалы», — рассказал Дэвид Пакман, ведущий шоу «Шоу Дэвида Пакмана». Около 160 его видео были включены в набор данных для обучения субтитрам YouTube.
«Это воровство», — заявил Дэйв Вискус, генеральный директор Nebula, стримингового сервиса, частично принадлежащего авторам, чьи работы были использованы для обучения искусственного интеллекта без их согласия. Вискус подчеркнул, что использование контента авторов без их разрешения является неуважительным, особенно учитывая, что студии могут использовать «генеративный ИИ, чтобы заменить как можно больше артистов на этом пути».