Крупнейшие технологические компании мира, включая Apple, NVIDIA и Salesforce, используют видеоролики YouTube для обучения своих нейронных сетей без разрешения авторов видеороликов. Это нарушает политику самого видеохостинга и вызывает недовольство блогеров, чьи работы используются без согласия.
Компании получили доступ к данным через некоммерческую организацию EleutherAI, которая собрала большую коллекцию данных, включая книги, статьи в Википедии и субтитры из 173 000 видеороликов на YouTube. Благодаря этому инструменту, разработанному новостным порталом Proof, теперь можно найти конкретные видео или каналы в базе данных Pile. Многие блогеры считают, что корпорации используют их работу без благословения, поскольку это их основная деятельность, которая требует времени, усилий и денег. Расследование также показало, что некоторые компании использовали данные, которые были удалены со страниц YouTube.
]]>