Найти тему
OVERCLOCKERS.RU

NYT: OpenAI использовала ресурсы YouTube для обучения своего ИИ

Для получения доступа к более авторитетным текстам на английском языке в 2021 году исследователи OpenAI создали инструмент распознавания речи Whisper, сообщает The New York Times. Этот инструмент был разработан для транскрибирования аудио из видеороликов на YouTube, что дало компании обширные данные для обучения своих LLM.

По словам газеты, OpenAI была осведомлена о том, что сбор данных с YouTube вызывает вопросы с юридической точки зрения, но они все равно решили сделать это, считая такой шаг добросовестным. Президент OpenAI Грег Брокман лично участвовал в процессе сбора видео, которые затем были транскрибированы.

Хотя можно было бы предположить, что Google не одобрил бы действия OpenAI, это было бы лицемерием, учитывая, что и Google сама использовала видеоролики с YouTube для своих моделей ИИ, что потенциально нарушало авторские права создателей.

Генеральный директор YouTube Нил Мохан заявил в интервью Bloomberg на прошлой неделе, что условия использования платформы не допускают несанкционированную транскрибацию или загрузку видеоконтента. Когда его спросили об использовании OpenAI, он отметил: "Я слышал о возможном использовании, но у меня нет конкретной информации".

Представитель Google Мэтт Брайант подтвердил правила использования и добавил, что компания предпринимает "технические и правовые меры" для предотвращения таких несанкционированных действий, "когда у нас есть четкие правовые или технические основания". Google заявляет, что их модели искусственного интеллекта обучаются на контенте YouTube, который разрешен согласно соглашениям с авторами.

The NYT также сообщает, что Google расширила свои условия использования, предоставив себе больше прав на использование данных потребителей, таких как общедоступные документы и обзоры ресторанов на Google Maps, для своих моделей ИИ. Обновленная политика была опубликована 1-го июля с надеждой, что национальные праздники отвлекут внимание общественности.

В дополнение, сообщается, что Meta* ищет альтернативные методы для получения большего объема данных для обучения своих алгоритмов. The NYT пишет, что материнская компания Facebook** рассматривала возможность извлечения авторских материалов из интернета, даже если это могло привести к судебным искам, так как договоренности с правообладателями могли бы потребовать слишком много времени.

Крупные компании, занимающиеся искусственным интеллектом, сталкиваются с растущим количеством жалоб и судебных исков со стороны организаций и частных лиц, обвиняющих их в использовании контента без оплаты или согласия. The New York Times подает в суд на OpenAI и Microsoft за использование авторских статей. В свою очередь, в феврале OpenAI обвинила издание в подтасовке улик и оплате за взлом их чат-бота и других продуктов для получения дезинформации.

*признана в РФ экстремистской и запрещена

**принадлежит Meta, которая признана в РФ экстремистской и запрещена