11,1 тыс подписчиков

🔥 Обучить модель уровня GPT-2 теперь стоит меньше $100

1 февраля1 фев

1 мин

Да, серьёзно. Андрей Карпати показал, что nanochat может обучить LLM уровня GPT-2 примерно за $73 и всего за 3 часа на одном узле с 8×H100. Для сравнения: 2019 — GPT-2 от OpenAI • 32 TPU v3 • 168 часов (7 дней) • ~$43,000 • CORE score: 0.2565 2025 — nanochat • 1 узел 8×H100 • 3.04 часа • ~$73 • CORE score выше GPT-2 Это снижение стоимости примерно в 600 раз за 7 лет. В среднем цена обучения модели такого уровня падает примерно в 2.5 раза каждый год. Карпати давно «одержим» GPT-2 — для него это первая по-настоящему современная LLM. Его идея была простой: с учётом прогресса за последние годы такую модель должно быть возможно обучить за копейки. И теперь это доказано на практике. Что дало главный прирост: • Flash Attention 3 — быстрее и позволяет использовать чередующиеся паттерны внимания • Muon optimizer — попытка заменить его на AdamW провалилась • Residual и skip-связи с обучаемыми скалярами • Value embeddings • Много мелких улучшений, которые вместе дают большой эффект Он да

🔥 Обучить модель уровня GPT-2 теперь стоит меньше $100. Да, серьёзно.

Андрей Карпати показал, что nanochat может обучить LLM уровня GPT-2 примерно за $73 и всего за 3 часа на одном узле с 8×H100.

Для сравнения:

2019 — GPT-2 от OpenAI

• 32 TPU v3

• 168 часов (7 дней)

• ~$43,000

• CORE score: 0.2565

2025 — nanochat

• 1 узел 8×H100

• 3.04 часа

• ~$73

• CORE score выше GPT-2

Это снижение стоимости примерно в 600 раз за 7 лет. В среднем цена обучения модели такого уровня падает примерно в 2.5 раза каждый год.

Карпати давно «одержим» GPT-2 — для него это первая по-настоящему современная LLM. Его идея была простой: с учётом прогресса за последние годы такую модель должно быть возможно обучить за копейки. И теперь это доказано на практике.

Что дало главный прирост:

• Flash Attention 3 — быстрее и позволяет использовать чередующиеся паттерны внимания

• Muon optimizer — попытка заменить его на AdamW провалилась

• Residual и skip-связи с обучаемыми скалярами

• Value embeddings

• Много мелких улучшений, которые вместе дают большой эффект

Он даже сделал лидерборд «Time to GPT-2» — кто быстрее обучит модель до уровня GPT-2. Первый результат — 3.04 часа.

Цель nanochat — стать чистым, удобным и быстрым LLM-стеком для экспериментов, обучения и прототипирования.

Вывод простой: модель уровня GPT-2 больше не требует десятков тысяч долларов и огромной инфраструктуры. Сегодня это вопрос грамотной оптимизации, инженерии и архитектуры. Барьер входа в обучение LLM стремительно падает

https://x.com/karpathy/status/2017703360393318587

Электроника

81,9 тыс интересуются