Согласно отчёту портала Proof News, Apple, NVIDIA, Salesforce, Anthropic и другие крупные технологические компании используют видео с YouTube для тренировки собственных нейросетей без разрешения авторов роликов. Это также может нарушать и политику самого видеохостинга.
В статье говорится, что компании обучали свои модели искусственного интеллекта частично с помощью Pile — коллекции некоммерческой организации EleutherAI, включающей книги, статьи из Wikipedia, субтитры, извлечённые из 173 536 видеороликов на YouTube с более чем 48 000 каналов. В этот список попали видео крупных YouTube-блогеров, таких как MrBeast, PewDiePie и MKBHD. Маркес Браунли, он же MKBHD, уже раскритиковал Apple за использование данных его видео, но в то же время он отмечает, что в этом случае сложно винить компанию, поскольку она лично не собирала данные.
«Apple получила данные для своего ИИ от нескольких компаний. Одна из них вырезала тонны данных/транскриптов из видеороликов на YouTube, включая мои. Apple технически избегает "вины" здесь, поскольку сама она не занималась сбором данных. Но эта проблема будет развиваться ещё долгое время», — написал Маркес.
Интересно, что в наборе данных Pile было видео, созданное Ars Technica с помощью ИИ, который был обучен на видео с попугаем, имитирующим человеческую речь. Получился буквально «испорченный телефон».
В ходе своего расследования авторы Proof News разработали инструмент, позволяющий искать в базе данных Pile отдельные видео или каналы.
Многие блогеры оскорблены таким подходом корпораций, поскольку это их работа, в которую они вкладывают время, силы и деньги, а их материалы без спроса берут для обучения ИИ других компаний.