Найти в Дзене
Машинное обучение

🚀 Emu3.5 - новая масштабная мультимодальная world-модель

🚀 Emu3.5 - новая масштабная мультимодальная world-модель

Это World-модель, работающая сразу с двумя потоками - текстом и пикселями и предсказывающая их совместное состояние на каждом шаге.

- 🔥 Обучена на 10T+ чередующихся vision-language токенов и доведена RL - в результате модель демонстрирует сильное мультимодальное рассуждение и генерация

- ⚡ Новый подход DiDA (Discrete Diffusion Adaptation) —- Discrete Diffusion Adaptation переводит последовательное декодирование в параллельное двустороннее «денойзинг»-предсказание в дискретном пространстве токенов - в итоге это дает примерно 20× быстрее инференс без потери качества.

По метрикам модель превосходит Nano Banana в генерации, редактировании и интерливинговых задачах.

🟠Попробовать: Emu3.5: https://emu.world

🟠Github: https://github.com/baaivision/Emu3.5