3 недели назад
🛠 Курс How to Train Your GPT объясняет LLaMA 3-style LLM с нуля в коде — чтобы перестать брать GPT-2-основу
Хватит учиться на архитектуре GPT-2: появился open-source курс, который шаг за шагом объясняет сборку современной LLM в стиле LLaMA 3 с RoPE и SwiGLU. Проект на GitHub (12 глав, 3900+ строк кода) сделан так, чтобы каждая строка была прокомментирована: сначала аналогии для новичков, потом математика и реальные числа, как считается attention — включая dot product и softmax. После чтения остаётся рабочий пайплайн от токенизатора до inference с KV cache. Есть два масштаба:...