Да, серьёзно. Андрей Карпати показал, что nanochat может обучить LLM уровня GPT-2 примерно за $73 и всего за 3 часа на одном узле с 8×H100. Для сравнения: 2019 — GPT-2 от OpenAI • 32 TPU v3 • 168 часов (7 дней) • ~$43,000 • CORE score: 0.2565 2025 — nanochat • 1 узел 8×H100 • 3.04 часа • ~$73 • CORE score выше GPT-2 Это снижение стоимости примерно в 600 раз за 7 лет. В среднем цена обучения модели такого уровня падает примерно в 2.5 раза каждый год. Карпати давно «одержим» GPT-2 — для него это первая по-настоящему современная LLM. Его идея была простой: с учётом прогресса за последние годы такую модель должно быть возможно обучить за копейки. И теперь это доказано на практике. Что дало главный прирост: • Flash Attention 3 — быстрее и позволяет использовать чередующиеся паттерны внимания • Muon optimizer — попытка заменить его на AdamW провалилась • Residual и skip-связи с обучаемыми скалярами • Value embeddings • Много мелких улучшений, которые вместе дают большой эффект Он да