Найти тему
Обайти

Битва за данные: корпорации в поисках «Золотой жилы»

Оглавление

Нешуточная битва за самый ценный ресурс развернулась за закрытыми дверями гигантов индустрии. Данные для обучения ИИ — мишень многих компаний. OpenAI, Google и Meta* не жалеют сил и средств, чтобы накормить свои LLM (большие языковые модели) максимальным объемом информации.

Изображение сгенерировано ИИ
Изображение сгенерировано ИИ

Методы этих компаний не всегда оказываются этичными и законными.

OpenAI: С «Whisper» наперевес

OpenAI, создатель нашумевшей модели GPT-4, используя Whisper (модель транскрипции звука), не постеснялась переписать миллионы часов видео с YouTube, чтобы насытить свою LLM. Лично руководит этой операцией президент OpenAI Грег Брокман.

Оправдывая действия компании, пресс-секретарь Линдси Хелд заявила, что «разнообразие наборов данных помогает моделям лучше понимать мир и сохранять конкурентоспособность».

OpenAI не ограничивается YouTube. Источники информации разнообразны: общедоступные данные, партнерские соглашения и даже синтетические данные, генерируемые собственными моделями.

Google: на шаг впереди?

Google тоже не прочь позаимствовать контент с YouTube. Однако компания уверяет, что делает это с согласия авторов.

Более того, в 2023 году Google обновила условия пользовательского соглашения, получив доступ к огромному массиву информации: отзывы на Google Maps, общедоступные документы и другие ресурсы.

Цель, как и в предыдущем случае, проста: накормить алгоритмы максимальным объемом данных для развития ИИ-продуктов.

Meta*: в поисках обходных путей

Meta* не остается в стороне от этой гонки. Стремясь догнать OpenAI, компания столкнулась с нехваткой качественных данных.

В ход пошли дискуссии о возможности использования защищенных авторским правом материалов.

Meta* изучила огромное количество текстов в интернете: книги, эссе, стихи, новости. Рассматривались варианты покупки лицензий и даже прямой оплаты крупным издательствам.

Некоторые сотрудники Meta* готовы принять на себя удар судебной системы, лишь бы быстрее получить нужные данные.

Что делать?

Ситуация с поиском данных для ИИ-моделей вызывает много вопросов.

Два основных подхода пытаются решить эту проблему.

Первый подход: обучение моделей на синтетических данных, генерируемых другими моделями.

Эффективность этого метода еще не доказана, к тому же он требует значительных вычислительных мощностей, о недостатке которых уже сообщается.

Второй подход: использование любых доступных данных, не заботясь об их происхождении.

Такой подход, как показывает практика, сопряжен с серьезными последствиями: судебные иски, ущерб репутации, проблемы с законодательством.

Как же найти баланс между развитием ИИ и этическими нормами?

Ответ на этот вопрос еще не найден.

Но одно ясно: ИИ-война за данные будет продолжаться.

А какие ваши мысли по этому поводу?

Как вы считаете, каким должен быть подход к сбору данных для обучения ИИ-моделей?

Делитесь своими мнениями в комментариях!

Подпишись на канал Дзен || Подпишись на ТГ канал

* Meta признана в России экстремистской организацией и запрещена.