🚀 Uni-MoE-2.0-Omni - новый прорыв в омнимодальных моделях Эта модель поднимает планку: от мультимодальности к полноценному омнимодальному пониманию и генерации: речь, текст, изображения, видео, аудио-видео взаимодействия. ✨ Главное нововведение Разработчики показали, как эволюционно превратить обычные плотные LLM в эффективные MoE-модели, способные работать со всеми модальностями одновременно. 🧠 Архитектура 1️⃣ Omnimodality 3D RoPE + Dynamic Capacity MoE - Унифицирует выравнивание речи, текста, изображений и видео в пространственно-временных измерениях - Динамически распределяет вычисления в зависимости от сложности задачи 2️⃣ Глубоко слитый мультимодальный encoder-decoder - Любые комбинации входных и выходных модальностей - Настоящее омнимодальное взаимодействие и генерация 🛠️ Тренировка 1️⃣ Прогрессивная стратегия обучения Cross-modal alignment → Warm-up экспертов → MoE + RL → Генеративное обучение - Масштабирует плотные LLM в MoE-модели - Всего 75B токенов - Стабильная сх
🚀 Uni-MoE-2.0-Omni - новый прорыв в омнимодальных моделях
18 ноября 202518 ноя 2025
20
1 мин