11,1 тыс подписчиков

🚀 Uni-MoE-2.0-Omni - новый прорыв в омнимодальных моделях

18 ноября 202518 ноя 2025

1 мин

🚀 Uni-MoE-2.0-Omni - новый прорыв в омнимодальных моделях Эта модель поднимает планку: от мультимодальности к полноценному омнимодальному пониманию и генерации: речь, текст, изображения, видео, аудио-видео взаимодействия. ✨ Главное нововведение Разработчики показали, как эволюционно превратить обычные плотные LLM в эффективные MoE-модели, способные работать со всеми модальностями одновременно. 🧠 Архитектура 1️⃣ Omnimodality 3D RoPE + Dynamic Capacity MoE - Унифицирует выравнивание речи, текста, изображений и видео в пространственно-временных измерениях - Динамически распределяет вычисления в зависимости от сложности задачи 2️⃣ Глубоко слитый мультимодальный encoder-decoder - Любые комбинации входных и выходных модальностей - Настоящее омнимодальное взаимодействие и генерация 🛠️ Тренировка 1️⃣ Прогрессивная стратегия обучения Cross-modal alignment → Warm-up экспертов → MoE + RL → Генеративное обучение - Масштабирует плотные LLM в MoE-модели - Всего 75B токенов - Стабильная сх

Эта модель поднимает планку: от мультимодальности к полноценному омнимодальному пониманию и генерации: речь, текст, изображения, видео, аудио-видео взаимодействия.

✨ Главное нововведение

Разработчики показали, как эволюционно превратить обычные плотные LLM в эффективные MoE-модели, способные работать со всеми модальностями одновременно.

🧠 Архитектура

1️⃣ Omnimodality 3D RoPE + Dynamic Capacity MoE

- Унифицирует выравнивание речи, текста, изображений и видео в пространственно-временных измерениях

- Динамически распределяет вычисления в зависимости от сложности задачи

2️⃣ Глубоко слитый мультимодальный encoder-decoder

- Любые комбинации входных и выходных модальностей

- Настоящее омнимодальное взаимодействие и генерация

🛠️ Тренировка

1️⃣ Прогрессивная стратегия обучения

Cross-modal alignment → Warm-up экспертов → MoE + RL → Генеративное обучение

- Масштабирует плотные LLM в MoE-модели

- Всего 75B токенов