Apple и ряд других крупных технологичных компаний на этой неделе попали в неприятный микро-скандал, когда внезапно оказалось, что они могли тренировать свои ИИ-модели на текстовых расшифровках 170 тысяч видео YouTube от топовых авторов, включая передачи Маркуса Браунли и Mr.Beast. В Купертино уже не очень ловко отбились от обвинений, но осадочек остался.

Всё началось в апреле этого года, когда Apple выпустила коллекцию открытых языковых моделей OpenELM, особенностью которых была работа на локальном устройстве, а не в облаке. В общедоступном комплекте содержатся исходный код, журналы обучения и несколько версий, а не только финальная обученная модель. Авторы из Купертино надеялись, что это приведет к ускорению прогресса и «более надежным результатам» в области ИИ на естественном языке.

Однако оказалось, что свои модели Apple тренировала, в том числе, на комплекте данных Pile от некоммерческой организации EleutherAI. Последняя вроде как должна помогать небольшим разработчикам в части ИИ, в том числе наборами данных. Так вот в Pile вошли расшифровки большого числа видеозаписей, размещенных YouTube — то, что сам видеохостинг делать без спроса запрещает.

В ответ на эти обвинения — а блогеры уже начали выпускать видео с заголовками «ОНИ украли наш контент» — в Купертино поспешили заявить, что создали OpenELM в самых благородных целях, но сами не используют эту модель в своём новом ИИ. Пишет издание 9to5mac.com...

Apple подтвердила нам, что модели OpenELM не используются ни в одной из ее функций искусственного интеллекта или машинного обучения, включая Apple Intelligence. Компания утверждает, что изначально создавала OpenELM как способ внести свой вклад в исследовательское сообщество и продвинуть разработку больших языковых моделей с открытым исходным кодом...

По словам Apple, OpenELM была создана исключительно в исследовательских целях, а не для использования в функциях Apple Intelligence. Модель была опубликована с открытым исходным кодом и широко доступна, в том числе на сайте Apple Machine Learning Research. Поскольку OpenELM не используется в Apple Intelligence, это означает, что набор данных «YouTube Subtitles» не используется для работы Apple Intelligence. В прошлом Apple заявляла, что модели Apple Intelligence обучаются «на лицензированных данных, включая данные, отобранные для улучшения конкретных функций, а также на общедоступных данных, собранных нашим веб-краулером».

Наконец, Apple также сообщила, что не планирует создавать новые версии модели OpenELM.

Иными словами, проблемные тексты вроде бы и использовали, но так как не монетизировали и в свои продукты не включили — то вроде бы и можно. На практике, скорее нет, но это уже вопросы к EleutherAI. А вся история показывает насколько юридически хрупким является мир современного ИИ — шаг вправо, шаг влево и ты снова кому-то должен.

Apple и ряд других крупных технологичных компаний на этой неделе попали в неприятный микро-скандал, когда внезапно оказалось, что они могли тренировать свои ИИ-модели на текстовых расшифровках 170...

2 минуты

18 июля 2024