В 2019-м тренировка GPT-2 была подвигом: огромные кластеры, закрытые датасеты, секретные оптимизации. В 2025-м всё резко меняется — и блогер Giles демонстрирует это буквально на своём столе.
На обычном ПК с RTX 3090 он обучает GPT-2-small на 163 млн параметров с нуля, следуя рекомендациям Chinchilla и используя 3,2 млрд токенов FineWeb. Итог — модель, которая хоть и уступает оригинальной, но качественно работает, улавливает структуру языка и готова к fine-tuning.
Это не просто эксперимент. Это — поворотный момент.
⚡ Демократизация больших моделей: граница сместилась
Несколько лет назад идея «воспроизвести GPT-2 дома» звучала как попытка построить Большой адронный коллайдер в гараже. Сегодня — это вполне реальная практика. Почему?
✨ Аппаратный скачок
RTX 3090 с её 35 TFLOPS FP32 + Tensor Cores на TF32/FP16 уже обеспечивает профиль нагрузки, сравнимый с GPU среднего класса 2019 года в лабораториях.
✨ Оптимизированные датаформаты и стек
PyTorch AMP, TF32, batched tokenization, safetensors — инструменты, о которых оригинальная команда OpenAI могла только мечтать.
✨ Появление открытых датасетов индустриального уровня
FineWeb и FineWeb-Edu — это структурированные, очищенные корпуса, которые превосходят WebText по качеству.
✨ Chinchilla rule
Понимание compute-optimal тренировок позволяет не «влить всё», а попасть в режим оптимального расхода FLOPs — идеальный сценарий для энтузиастов.
💬 Мы внезапно оказались в мире, где «базовая модель» перестала быть священным артефактом больших корпораций.
🔧 Технические детали — что именно сделал автор
Эксперимент интересен не только фактом результата, но и инженерным качеством.
🧱 Архитектура
Модель в точности повторяет GPT-2 small:
- 🧩 12 слоёв трансформера
- 🔢 12 голов внимания
- 📏 embedding 768
- 🏷️ vocab 50 257
- 🧪 без qkv-bias и без weight tying (по рекомендации Raschka)
То есть никаких фокусов — «честный» GPT-2.
📚 Данные
Использован FineWeb 10B sample, из которого были выбраны нужные 3,2 млрд токенов по правилу:
🧮 tokens ≈ 20 × parameters — формула Chinchilla.
Важно: это больше, чем многие open-source модели, которых тренируют на 1–2 млрд токенов.
🚀 Оптимизация обучения
Автор добился около 20 000 tokens/s, что впечатляет для single GPU.
Как?
- ⚙️ torch.amp.autocast — автоматическая смешанная точность
- 🟣 TF32 через torch.set_float32_matmul_precision("high")
- 🔁 минимизация перемещений между CPU/GPU
- 🧵 многопроцессная токенизация через HF datasets
- 🗂️ safetensors для хранения датасетов (≈12–13 ГБ в int32)
Это сочетание дало ускорение ~2× по сравнению с наивным FP32-тренингом.
🧪 Результат: почти GPT-2, но с нюансами
Авторский GPT-2 уступает оригиналу:
📉 Val loss на FineWeb:
- Авторская модель: ~3.94
- Оригинальная GPT-2 small: ~3.50
Но ближе, чем можно было бы ожидать для «домашней сборки».
После слабого instruction fine-tuning на Alpaca результаты модели сравнивали через GPT-5.1 как судью:
🏅 Средний score:
- GPT-2 small оригинальная: ~20.4
- Домашняя GPT-2: ~16.1
Для такого эксперимента — почти удивительно близко.
🧠 Почему OpenAI всё ещё лучше?
Анализ автора — по сути, отличная дорожная карта для будущих экспериментов.
🧪 Возможные причины:
- 📉 они тренировали на большее число эпох (вплоть до 40–60)
- 📦 WebText всё же содержит иные распределения тем
- 🧱 архитектурные различия: bias в QKV, weight tying
- 🎚️ другая схема learning rate schedule
- 🧺 очень большой batch size (512), недостижимый на 3090
- 🧨 FP32 у оригинала против AMP у автора
Каждый пункт даёт небольшой вклад, но вместе они создают разницу.
Тем не менее — ключевое: качество получилось достойным для энтузиастского проекта.
🌍 Моё мнение: это важнее, чем кажется
Обучить GPT-2 дома — это не просто хакерская бравада.
Это демонстрация смещения баланса в области ИИ:
💻 Модельный суверенитет — базы теперь можно собирать самостоятельно.
🧪 Быстрые циклы экспериментов — исследователи вне корпораций смогут строить новые архитектуры, а не только fine-tune.
🔎 Прозрачность — открытые воспроизводимые эксперименты уменьшают «чёрные ящики» индустрии.
🌱 Рост экосистемы open-source LLMs, в духе nanoGPT и nanochat.
В ближайшие 2–3 года подобные эксперименты станут нормой: RTX 5090, сниженная цена облаков, тренировки под 4-битом, оптимизированные архитектуры. Граница между «лабораторией» и «домашней мастерской» будет стираться.
Скорее всего, эпоха маленьких персональных LLM — это именно 2025–2027.
🔗 Источники
Оригинальный пост:
https://www.gilesthomas.com/2025/12/llm-from-scratch-28-training-a-base-model-from-scratch