Поддержать в один клик: 1. Какой объём данных использовался для обучения больших LLM (порядок величин) Для моделей уровня GPT-4 / GPT-5-класса принято говорить о порядках, а не о точных цифрах. 📊 Оценка по объёму сырых данных: ≈ 10–100 ТБ текста (до очистки) после фильтрации, дедупликации и нормализации: ≈ 1–10 ТБ «чистого» текста Это: книги статьи код диалоги документация многоязычные данные Важно: ТБ — это не «больше = лучше», а «достаточно разнообразно». 2. Сколько это в «словах» и «токенах» Обычно считают в токенах. Приблизительно: 1 ТБ текста ≈ 200–300 млрд токенов крупные модели обучаются на: ≈ 1–5 трлн токенов 3. Сколько данных нужно, чтобы обучить «полнофункциональную» модель Зависит от того, что считать «полнофункциональной». 🟢 Минимально полезная модель (умеет говорить, но слабо рассуждает): ~10–50 млрд токенов это десятки гигабайт текста 🟡 Хорошая модель (GPT-3.5 уровень) ~300–500 млрд токенов сотни ГБ – 1 ТБ чистых данных 🔵 Продвинутая модель (GPT-4+ уровень) 1–
ИИ: Объём данных для обучения против "веса" готовой модели
13 декабря13 дек
21
2 мин