Нешуточная битва за самый ценный ресурс развернулась за закрытыми дверями гигантов индустрии. Данные для обучения ИИ — мишень многих компаний. OpenAI, Google и Meta* не жалеют сил и средств, чтобы накормить свои LLM (большие языковые модели) максимальным объемом информации. Методы этих компаний не всегда оказываются этичными и законными. OpenAI: С «Whisper» наперевес OpenAI, создатель нашумевшей модели GPT-4, используя Whisper (модель транскрипции звука), не постеснялась переписать миллионы часов видео с YouTube, чтобы насытить свою LLM. Лично руководит этой операцией президент OpenAI Грег Брокман. Оправдывая действия компании, пресс-секретарь Линдси Хелд заявила, что «разнообразие наборов данных помогает моделям лучше понимать мир и сохранять конкурентоспособность». OpenAI не ограничивается YouTube. Источники информации разнообразны: общедоступные данные, партнерские соглашения и даже синтетические данные, генерируемые собственными моделями. Google: на шаг впереди? Google тоже не про