Для получения доступа к более авторитетным текстам на английском языке в 2021 году исследователи OpenAI создали инструмент распознавания речи Whisper, сообщает The New York Times. Этот инструмент был разработан для транскрибирования аудио из видеороликов на YouTube, что дало компании обширные данные для обучения своих LLM. По словам газеты, OpenAI была осведомлена о том, что сбор данных с YouTube вызывает вопросы с юридической точки зрения, но они все равно решили сделать это, считая такой шаг добросовестным. Президент OpenAI Грег Брокман лично участвовал в процессе сбора видео, которые затем были транскрибированы. Хотя можно было бы предположить, что Google не одобрил бы действия OpenAI, это было бы лицемерием, учитывая, что и Google сама использовала видеоролики с YouTube для своих моделей ИИ, что потенциально нарушало авторские права создателей. Генеральный директор YouTube Нил Мохан заявил в интервью Bloomberg на прошлой неделе, что условия использования платформы не допускают неса
NYT: OpenAI использовала ресурсы YouTube для обучения своего ИИ
8 апреля 20248 апр 2024
3
2 мин