Нешуточная битва за самый ценный ресурс развернулась за закрытыми дверями гигантов индустрии. Данные для обучения ИИ — мишень многих компаний. OpenAI, Google и Meta* не жалеют сил и средств, чтобы накормить свои LLM (большие языковые модели) максимальным объемом информации.
Методы этих компаний не всегда оказываются этичными и законными.
OpenAI: С «Whisper» наперевес
OpenAI, создатель нашумевшей модели GPT-4, используя Whisper (модель транскрипции звука), не постеснялась переписать миллионы часов видео с YouTube, чтобы насытить свою LLM. Лично руководит этой операцией президент OpenAI Грег Брокман.
Оправдывая действия компании, пресс-секретарь Линдси Хелд заявила, что «разнообразие наборов данных помогает моделям лучше понимать мир и сохранять конкурентоспособность».
OpenAI не ограничивается YouTube. Источники информации разнообразны: общедоступные данные, партнерские соглашения и даже синтетические данные, генерируемые собственными моделями.
Google: на шаг впереди?
Google тоже не прочь позаимствовать контент с YouTube. Однако компания уверяет, что делает это с согласия авторов.
Более того, в 2023 году Google обновила условия пользовательского соглашения, получив доступ к огромному массиву информации: отзывы на Google Maps, общедоступные документы и другие ресурсы.
Цель, как и в предыдущем случае, проста: накормить алгоритмы максимальным объемом данных для развития ИИ-продуктов.
Meta*: в поисках обходных путей
Meta* не остается в стороне от этой гонки. Стремясь догнать OpenAI, компания столкнулась с нехваткой качественных данных.
В ход пошли дискуссии о возможности использования защищенных авторским правом материалов.
Meta* изучила огромное количество текстов в интернете: книги, эссе, стихи, новости. Рассматривались варианты покупки лицензий и даже прямой оплаты крупным издательствам.
Некоторые сотрудники Meta* готовы принять на себя удар судебной системы, лишь бы быстрее получить нужные данные.
Что делать?
Ситуация с поиском данных для ИИ-моделей вызывает много вопросов.
Два основных подхода пытаются решить эту проблему.
Первый подход: обучение моделей на синтетических данных, генерируемых другими моделями.
Эффективность этого метода еще не доказана, к тому же он требует значительных вычислительных мощностей, о недостатке которых уже сообщается.
Второй подход: использование любых доступных данных, не заботясь об их происхождении.
Такой подход, как показывает практика, сопряжен с серьезными последствиями: судебные иски, ущерб репутации, проблемы с законодательством.
Как же найти баланс между развитием ИИ и этическими нормами?
Ответ на этот вопрос еще не найден.
Но одно ясно: ИИ-война за данные будет продолжаться.
А какие ваши мысли по этому поводу?
Как вы считаете, каким должен быть подход к сбору данных для обучения ИИ-моделей?
Делитесь своими мнениями в комментариях!
Подпишись на канал Дзен || Подпишись на ТГ канал
* Meta признана в России экстремистской организацией и запрещена.