Xiaomi представили свою MoE лмку 309 млрд параметров (всего) / 15 млрд активных параметров, гибридная архитектура внимания с соотношением Sliding Window Attention к Global Attention 5:1, Multi-Token Prediction (MTP) увеличивает скорость генерации в 3 раза Контекст до 256K токенов, обучена на 27 триллионах токенов с использованием FP8 смешанной точности 🔘Технологии Hybrid Sliding Window Attention Новая архитектура внимания снижает требования к KV-кешу почти в 6 раз, используя агрессивное окно в 128 токенов при сохранении производительности на длинных контекстах Multi-Token Prediction Легковесный модуль MTP (всего 0.33B параметров на блок), подключили они егшо чтобы получить нативную поддержку спекулятивной декодировки, утраивая скорость вывода и ускоряя обучение с подкреплением Multi-Teacher On-Policy Distillation (MOPD) Подход к дистилляции знаний, формулирует процесс как задачу обучения с подкреплением с токен-уровневым руководством от экспертов Бенчмарки базовой модели: - AIME