OpenAI рассматривает возможность использовать транскрипции с YouTube для обучения GPT-5 из-за острой нехватки данных. Компания ищет новые источники информации и способы обучения ИИ-моделей. Эксперты предупреждают, что использование синтетических данных, сгенерированных ИИ, может привести к сбоям.
Основная проблема - дефицит качественных данных. Также не хватает чипов, дата-центров и энергии для работы крупных языковых моделей.
По оценкам, для GPT-5 понадобится 60-100 трлн токенов высококачественных данных, что создает огромный дефицит.
Большая часть данных в интернете бесполезна. Доступ к данным компаний, включая Facebook и Instagram, ограничен.
Рассматриваются создание рынка данных, упорядоченная подача информации и более узкоспециализированные модели.