2258 подписчиков

Битва за данные: корпорации в поисках «Золотой жилы»

9 апреля 20249 апр 2024

2 мин

Оглавление

Методы этих компаний не всегда оказываются этичными и законными.
OpenAI: С «Whisper» наперевес
Google: на шаг впереди?

Нешуточная битва за самый ценный ресурс развернулась за закрытыми дверями гигантов индустрии. Данные для обучения ИИ — мишень многих компаний. OpenAI, Google и Meta* не жалеют сил и средств, чтобы накормить свои LLM (большие языковые модели) максимальным объемом информации.

Методы этих компаний не всегда оказываются этичными и законными.

OpenAI: С «Whisper» наперевес

OpenAI, создатель нашумевшей модели GPT-4, используя Whisper (модель транскрипции звука), не постеснялась переписать миллионы часов видео с YouTube, чтобы насытить свою LLM. Лично руководит этой операцией президент OpenAI Грег Брокман.

Оправдывая действия компании, пресс-секретарь Линдси Хелд заявила, что «разнообразие наборов данных помогает моделям лучше понимать мир и сохранять конкурентоспособность».

OpenAI не ограничивается YouTube. Источники информации разнообразны: общедоступные данные, партнерские соглашения и даже синтетические данные, генерируемые собственными моделями.

Google: на шаг впереди?

Google тоже не прочь позаимствовать контент с YouTube. Однако компания уверяет, что делает это с согласия авторов.

Более того, в 2023 году Google обновила условия пользовательского соглашения, получив доступ к огромному массиву информации: отзывы на Google Maps, общедоступные документы и другие ресурсы.

Цель, как и в предыдущем случае, проста: накормить алгоритмы максимальным объемом данных для развития ИИ-продуктов.

**Meta*: в поисках обходных путей**

Meta* не остается в стороне от этой гонки. Стремясь догнать OpenAI, компания столкнулась с нехваткой качественных данных.

В ход пошли дискуссии о возможности использования защищенных авторским правом материалов.

Meta* изучила огромное количество текстов в интернете: книги, эссе, стихи, новости. Рассматривались варианты покупки лицензий и даже прямой оплаты крупным издательствам.

Некоторые сотрудники Meta* готовы принять на себя удар судебной системы, лишь бы быстрее получить нужные данные.