OpenAI использует YouTube для обучения GPT-5?

29 апреля 202429 апр 2024

~1 мин

Основная проблема - дефицит качественных данных. Также не хватает чипов, дата-центров и энергии для работы крупных языковых моделей.

По оценкам, для GPT-5 понадобится 60-100 трлн токенов высококачественных данных, что создает огромный дефицит.

Большая часть данных в интернете бесполезна. Доступ к данным компаний, включая Facebook и Instagram, ограничен.

Рассматриваются создание рынка данных, упорядоченная подача информации и более узкоспециализированные модели.

По оценкам, для GPT-5 понадобится 60-100 трлн токенов высококачественных данных, что создает огромный дефицит.

Большая часть данных в интернете бесполезна. Доступ к данным компаний, включая Facebook и Instagram, ограничен.

OpenAI рассматривает возможность использовать транскрипции с YouTube для обучения GPT-5 из-за острой нехватки данных. Компания ищет новые источники информации и способы обучения ИИ-моделей. Эксперты предупреждают, что использование синтетических данных, сгенерированных ИИ, может привести к сбоям.

Основная проблема - дефицит качественных данных. Также не хватает чипов, дата-центров и энергии для работы крупных языковых моделей.

По оценкам, для GPT-5 понадобится 60-100 трлн токенов высококачественных данных, что создает огромный дефицит.

Большая часть данных в интернете бесполезна. Доступ к данным компаний, включая Facebook и Instagram, ограничен.

Рассматриваются создание рынка данных, упорядоченная подача информации и более узкоспециализированные модели.