1 подписчик

🛠 Курс How to Train Your GPT объясняет LLaMA 3-style LLM с нуля в коде — чтобы перестать брать GPT-2-основу

11 мая11 мая

~1 мин

Хватит учиться на архитектуре GPT-2: появился open-source курс, который шаг за шагом объясняет сборку современной LLM в стиле LLaMA 3 с RoPE и SwiGLU. Проект на GitHub (12 глав, 3900+ строк кода) сделан так, чтобы каждая строка была прокомментирована: сначала аналогии для новичков, потом математика и реальные числа, как считается attention — включая dot product и softmax. После чтения остаётся рабочий пайплайн от токенизатора до inference с KV cache. Есть два масштаба: tiny (~17M параметров, CPU-подход) и GPT-2 scale (~151M, лучше GPU), плюс конфиги легко менять для экспериментов. По сравнению с nanoGPT авторы не повторяют 2019-й стек ради простоты: здесь больше современных техник, но меньше «экосистемы». А книгу LLMs-from-scratch он заменяет на единый runnable код, где теория сразу связана с реализацией. #tool #HowtoTrainYourGPT #LLaMA3 #RoPE #SwiGLU #PyTorch #Transformer #KVcache 🔗 raiyanyahya/how-to-train-your-gpt

Хватит учиться на архитектуре GPT-2: появился open-source курс, который шаг за шагом объясняет сборку современной LLM в стиле LLaMA 3 с RoPE и SwiGLU.

Проект на GitHub (12 глав, 3900+ строк кода) сделан так, чтобы каждая строка была прокомментирована: сначала аналогии для новичков, потом математика и реальные числа, как считается attention — включая dot product и softmax.

После чтения остаётся рабочий пайплайн от токенизатора до inference с KV cache. Есть два масштаба: tiny (~17M параметров, CPU-подход) и GPT-2 scale (~151M, лучше GPU), плюс конфиги легко менять для экспериментов.

По сравнению с nanoGPT авторы не повторяют 2019-й стек ради простоты: здесь больше современных техник, но меньше «экосистемы». А книгу LLMs-from-scratch он заменяет на единый runnable код, где теория сразу связана с реализацией.

#tool #HowtoTrainYourGPT #LLaMA3 #RoPE #SwiGLU #PyTorch #Transformer #KVcache

🔗 raiyanyahya/how-to-train-your-gpt