185 подписчиков

🖥️ Когда «домашний ПК» начинает конкурировать с лабораториями: как энтузиаст обучил GPT-2 с нуля за 48 часов

10 декабря 202510 дек 2025

3 мин

В 2019-м тренировка GPT-2 была подвигом: огромные кластеры, закрытые датасеты, секретные оптимизации. В 2025-м всё резко меняется — и блогер Giles демонстрирует это буквально на своём столе. На обычном ПК с RTX 3090 он обучает GPT-2-small на 163 млн параметров с нуля, следуя рекомендациям Chinchilla и используя 3,2 млрд токенов FineWeb. Итог — модель, которая хоть и уступает оригинальной, но качественно работает, улавливает структуру языка и готова к fine-tuning. Это не просто эксперимент. Это — поворотный момент. ⚡ Демократизация больших моделей: граница сместилась Несколько лет назад идея «воспроизвести GPT-2 дома» звучала как попытка построить Большой адронный коллайдер в гараже. Сегодня — это вполне реальная практика. Почему? ✨ Аппаратный скачок

RTX 3090 с её 35 TFLOPS FP32 + Tensor Cores на TF32/FP16 уже обеспечивает профиль нагрузки, сравнимый с GPU среднего класса 2019 года в лабораториях. ✨ Оптимизированные датаформаты и стек

PyTorch AMP, TF32, batched tokenization, safetensor

Оглавление

⚡ Демократизация больших моделей: граница сместилась
🔧 Технические детали — что именно сделал автор
🧱 Архитектура

На обычном ПК с RTX 3090 он обучает GPT-2-small на 163 млн параметров с нуля, следуя рекомендациям Chinchilla и используя 3,2 млрд токенов FineWeb. Итог — модель, которая хоть и уступает оригинальной, но качественно работает, улавливает структуру языка и готова к fine-tuning.

Это не просто эксперимент. Это — поворотный момент.

⚡ Демократизация больших моделей: граница сместилась

Несколько лет назад идея «воспроизвести GPT-2 дома» звучала как попытка построить Большой адронный коллайдер в гараже. Сегодня — это вполне реальная практика. Почему?

✨ Аппаратный скачок
RTX 3090 с её 35 TFLOPS FP32 + Tensor Cores на TF32/FP16 уже обеспечивает профиль нагрузки, сравнимый с GPU среднего класса 2019 года в лабораториях.

✨ Оптимизированные датаформаты и стек
PyTorch AMP, TF32, batched tokenization, safetensors — инструменты, о которых оригинальная команда OpenAI могла только мечтать.

✨ Появление открытых датасетов индустриального уровня
FineWeb и FineWeb-Edu — это структурированные, очищенные корпуса, которые превосходят WebText по качеству.

✨ Chinchilla rule
Понимание compute-optimal тренировок позволяет не «влить всё», а попасть в режим оптимального расхода FLOPs — идеальный сценарий для энтузиастов.

💬 Мы внезапно оказались в мире, где «базовая модель» перестала быть священным артефактом больших корпораций.

🔧 Технические детали — что именно сделал автор

Эксперимент интересен не только фактом результата, но и инженерным качеством.

🧱 Архитектура

Модель в точности повторяет GPT-2 small:

🧩 12 слоёв трансформера
🔢 12 голов внимания
📏 embedding 768
🏷️ vocab 50 257
🧪 без qkv-bias и без weight tying (по рекомендации Raschka)

То есть никаких фокусов — «честный» GPT-2.

📚 Данные

Использован FineWeb 10B sample, из которого были выбраны нужные 3,2 млрд токенов по правилу:

🧮 tokens ≈ 20 × parameters — формула Chinchilla.

Важно: это больше, чем многие open-source модели, которых тренируют на 1–2 млрд токенов.

🚀 Оптимизация обучения

Автор добился около 20 000 tokens/s, что впечатляет для single GPU.
Как?

⚙️ torch.amp.autocast — автоматическая смешанная точность
🟣 TF32 через torch.set_float32_matmul_precision("high")
🔁 минимизация перемещений между CPU/GPU
🧵 многопроцессная токенизация через HF datasets
🗂️ safetensors для хранения датасетов (≈12–13 ГБ в int32)

Это сочетание дало ускорение ~2× по сравнению с наивным FP32-тренингом.

🧪 Результат: почти GPT-2, но с нюансами

Авторский GPT-2 уступает оригиналу:

📉 Val loss на FineWeb:

Авторская модель: ~3.94
Оригинальная GPT-2 small: ~3.50

Но ближе, чем можно было бы ожидать для «домашней сборки».

После слабого instruction fine-tuning на Alpaca результаты модели сравнивали через GPT-5.1 как судью:

🏅 Средний score:

GPT-2 small оригинальная: ~20.4
Домашняя GPT-2: ~16.1

Для такого эксперимента — почти удивительно близко.

🧠 Почему OpenAI всё ещё лучше?

Анализ автора — по сути, отличная дорожная карта для будущих экспериментов.

🧪 Возможные причины:

📉 они тренировали на большее число эпох (вплоть до 40–60)
📦 WebText всё же содержит иные распределения тем
🧱 архитектурные различия: bias в QKV, weight tying
🎚️ другая схема learning rate schedule
🧺 очень большой batch size (512), недостижимый на 3090
🧨 FP32 у оригинала против AMP у автора

Каждый пункт даёт небольшой вклад, но вместе они создают разницу.

Тем не менее — ключевое: качество получилось достойным для энтузиастского проекта.

🌍 Моё мнение: это важнее, чем кажется

Обучить GPT-2 дома — это не просто хакерская бравада.

Это демонстрация смещения баланса в области ИИ:

💻 Модельный суверенитет — базы теперь можно собирать самостоятельно.

🧪 Быстрые циклы экспериментов — исследователи вне корпораций смогут строить новые архитектуры, а не только fine-tune.

🔎 Прозрачность — открытые воспроизводимые эксперименты уменьшают «чёрные ящики» индустрии.

🌱 Рост экосистемы open-source LLMs, в духе nanoGPT и nanochat.

В ближайшие 2–3 года подобные эксперименты станут нормой: RTX 5090, сниженная цена облаков, тренировки под 4-битом, оптимизированные архитектуры. Граница между «лабораторией» и «домашней мастерской» будет стираться.

Скорее всего, эпоха маленьких персональных LLM — это именно 2025–2027.

🔗 Источники

Оригинальный пост:
https://www.gilesthomas.com/2025/12/llm-from-scratch-28-training-a-base-model-from-scratch