Найти в Дзене

ИИ: Объём данных для обучения против "веса" готовой модели

Поддержать в один клик: 1. Какой объём данных использовался для обучения больших LLM (порядок величин) Для моделей уровня GPT-4 / GPT-5-класса принято говорить о порядках, а не о точных цифрах. 📊 Оценка по объёму сырых данных: ≈ 10–100 ТБ текста (до очистки) после фильтрации, дедупликации и нормализации: ≈ 1–10 ТБ «чистого» текста Это: книги статьи код диалоги документация многоязычные данные Важно: ТБ — это не «больше = лучше», а «достаточно разнообразно». 2. Сколько это в «словах» и «токенах» Обычно считают в токенах. Приблизительно: 1 ТБ текста ≈ 200–300 млрд токенов крупные модели обучаются на: ≈ 1–5 трлн токенов 3. Сколько данных нужно, чтобы обучить «полнофункциональную» модель Зависит от того, что считать «полнофункциональной». 🟢 Минимально полезная модель (умеет говорить, но слабо рассуждает): ~10–50 млрд токенов это десятки гигабайт текста 🟡 Хорошая модель (GPT-3.5 уровень) ~300–500 млрд токенов сотни ГБ – 1 ТБ чистых данных 🔵 Продвинутая модель (GPT-4+ уровень) 1–
Оглавление

Поддержать в один клик:

Мысли в фокусе: Полезная информация и Размышления | Дзен

1. Какой объём данных использовался для обучения больших LLM (порядок величин)

Для моделей уровня GPT-4 / GPT-5-класса принято говорить о порядках, а не о точных цифрах.

📊 Оценка по объёму сырых данных:

  • ≈ 10–100 ТБ текста (до очистки)
  • после фильтрации, дедупликации и нормализации:
  • ≈ 1–10 ТБ «чистого» текста

Это:

  • книги
  • статьи
  • код
  • диалоги
  • документация
  • многоязычные данные

Важно:

ТБ — это не «больше = лучше», а «достаточно разнообразно».

2. Сколько это в «словах» и «токенах»

Обычно считают в токенах.

Приблизительно:

  • 1 ТБ текста ≈ 200–300 млрд токенов
  • крупные модели обучаются на:
  • ≈ 1–5 трлн токенов

3. Сколько данных нужно, чтобы обучить «полнофункциональную» модель

Зависит от того, что считать «полнофункциональной».

🟢 Минимально полезная модель

(умеет говорить, но слабо рассуждает):

  • ~10–50 млрд токенов
  • это десятки гигабайт текста

🟡 Хорошая модель (GPT-3.5 уровень)

  • ~300–500 млрд токенов
  • сотни ГБ – 1 ТБ чистых данных

🔵 Продвинутая модель (GPT-4+ уровень)

  • 1–5 трлн токенов
  • 1–10 ТБ очищенных данных
  • плюс RLHF, синтетика, дообучение (про это в отдельной статье).

4. Важный момент: данные ≠ знания линейно

После определённого порога:

  • +2× данных не дают +2× качества
  • качество растёт логарифмически

Критичны:

  • разнообразие
  • баланс
  • качество
  • структура
  • обучение на рассуждениях, а не на «болтовне»

Поэтому:

500 ГБ хороших данных лучше, чем 5 ТБ мусора

5. Почему нельзя просто «скормить ещё данных»

Потому что упираемся в:

  • архитектуру
  • число параметров
  • вычисления
  • переобучение
  • "шум"

Есть эмпирическое правило (Chinchilla scaling law, упрощённо):

Объём данных должен масштабироваться вместе с размером модели,
иначе данные либо не усваиваются, либо усваиваются плохо.

6. Сколько «весит» результат обучения

Это важный и часто неожиданный момент.

Примерно:

  • данные: один или несколько ТБ
  • итоговая модель: десятки–сотни ГБ (намного меньше)

То есть:

ТБ текста → сжимаются в ГБ параметров

Это не архив, а обобщение.

7. Самая честная формула

  • Для полноценной LLM:
  • До 10 ТБ очищенных данных
  • До 5 трлн токенов
  • Но решает не объём, а структура и качество

8. Важный философский вывод

Модель не «впитывает мир».
Она выводит закономерности языка и мышления
из конечного объёма текста.

Вопросы на подумать:

  • почему меньшие модели иногда рассуждают лучше
  • сколько данных нужно, чтобы обучить специализированную модель (например, только по IT)
  • почему синтетические данные работают
  • где граница масштабирования

Куда пойдём дальше?

-2

Для тех, кто хочет поддержать канал:

Мысли в фокусе: Полезная информация и Размышления | Дзен

Мои 6-секундные Ai сны: 

https://dzen.ru/suite/7c100f50-7f55-4ff6-b182-ca79b8f497c9

Все подборки:

https://dzen.ru/polarman?tab=suites