🔥 Разбор того, как Mixture-of-Experts (MoE) LLM можно сделать реально дешёвыми, если подогнать архитектуру под железо. В чём проблема - MoE включает только часть экспертов на токен → экономия compute. - Но при больших batch size растут коммуникации и память: - больше экспертов грузится, - KV-кэш раздувается, - узким местом становится память и сеть. Решение - expert parallelism - Эксперты размазаны по многим GPU. - Токен идёт к top-N экспертам + shared-эксперт. - В DeepSeek: 8 экспертов из 256 на слой × 58 слоёв. Чтобы справиться с коммуникациями: - внимание остаётся data parallel (кэш сидит на одном GPU), - гоняются только маленькие вектора активаций, - два микробатча: один считает, другой общается, - горячие эксперты дублируются, - токены стараются держать экспертов в пределах одного узла. Оптимизации - multi-head latent attention → сжатие KV-кэша до ~70KB вместо сотен KB. - перестройка математики внимания → меньше вычислений при длинных контекстах. - prefill и decode разделены,
🔥 Разбор того, как Mixture-of-Experts (MoE) LLM можно сделать реально дешёвыми, если подогнать архитектуру под железо
3 октября 20253 окт 2025
19
1 мин