Найти в Дзене
SkyNet | Новости ИИ

Команда Alibaba Qwen выпустила Qwen3.5 Omni: нативная мультимодальная модель для текста, аудио, видео и взаимодействия в реальном времени

Команда Alibaba Qwen представила Qwen3.5-Omni — модель, которая может работать с текстом, аудио, видео и обеспечивать взаимодействие в реальном времени. Это значительный шаг в эволюции мультимодальных больших языковых моделей (MLLMs). Qwen3.5-Omni разработана как прямой конкурент флагманским моделям, таким как Gemini 3.1 Pro. Она представляет собой унифицированную структуру, способную одновременно обрабатывать текст, изображения, аудио и видео в рамках единого вычислительного конвейера. Техническая значимость Qwen3.5-Omni Техническая значимость Qwen3.5-Omni заключается в её архитектуре Thinker-Talker и использовании Hybrid-Attention Mixture of Experts (MoE) во всех модальности. Этот подход позволяет модели обрабатывать огромные контекстные окна и обеспечивать взаимодействие в реальном времени без традиционных задержек, связанных с каскадными системами. Уровни модели Серия предлагается в трёх размерах, чтобы сбалансировать производительность и стоимость: * Plus: высокая сложность р

Команда Alibaba Qwen выпустила Qwen3.5 Omni: нативная мультимодальная модель для текста, аудио, видео и взаимодействия в реальном времени

Команда Alibaba Qwen представила Qwen3.5-Omni — модель, которая может работать с текстом, аудио, видео и обеспечивать взаимодействие в реальном времени. Это значительный шаг в эволюции мультимодальных больших языковых моделей (MLLMs).

Qwen3.5-Omni разработана как прямой конкурент флагманским моделям, таким как Gemini 3.1 Pro. Она представляет собой унифицированную структуру, способную одновременно обрабатывать текст, изображения, аудио и видео в рамках единого вычислительного конвейера.

Техническая значимость Qwen3.5-Omni

Техническая значимость Qwen3.5-Omni заключается в её архитектуре Thinker-Talker и использовании Hybrid-Attention Mixture of Experts (MoE) во всех модальности. Этот подход позволяет модели обрабатывать огромные контекстные окна и обеспечивать взаимодействие в реальном времени без традиционных задержек, связанных с каскадными системами.

Уровни модели

Серия предлагается в трёх размерах, чтобы сбалансировать производительность и стоимость:

* Plus: высокая сложность рассуждений и максимальная точность.

* Flash: оптимизирован для высокой пропускной способности и взаимодействия с низкой задержкой.

* Light: меньший вариант для задач, ориентированных на эффективность.

Архитектура Thinker-Talker: унифицированная структура MoE

В основе Qwen3.5-Omni лежит разветвлённая, но тесно интегрированная архитектура, состоящая из двух основных компонентов: Thinker (Мыслитель) и Talker (Говорящий).

В предыдущих версиях мультимодальные модели часто полагались на внешние предварительно обученные энкодеры (например, Whisper для аудио). Qwen3.5-Omni выходит за рамки этого, используя собственный энкодер Audio Transformer (AuT). Этот энкодер был предварительно обучен на более чем 100 миллионах часов аудиовизуальных данных, что обеспечивает модели глубокое понимание временных и акустических нюансов, которых не хватает традиционным моделям, ориентированным на текст.

Hybrid-Attention Mixture of Experts (MoE)

И Thinker, и Talker используют Hybrid-Attention MoE. В стандартной настройке MoE только подмножество параметров («эксперты») активируется для любого заданного токена, что позволяет использовать большое общее количество параметров с более низкими активными вычислительными затратами. Применяя это к механизму гибридного внимания, Qwen3.5-Omni может эффективно взвешивать важность различных модальностей (например, уделяя больше внимания визуальным токенам во время анализа видео) при сохранении пропускной способности, необходимой для потоковых сервисов.

Эта архитектура поддерживает ввод длиной 256 тыс. токенов, позволяя модели обрабатывать:

* более 10 часов непрерывного аудио;

* более 400 секунд аудиовизуального контента 720p (с частотой выборки 1 FPS).

Бенчмаркинг производительности: достижение уровня SOTA

Одной из наиболее ярких технических характеристик флагманского модели Qwen3.5-Omni-Plus является её производительность в глобальном рейтинге. Модель достигла передовых результатов (SOTA) в 215 задачах по пониманию аудио и аудиовизуальных данных, ...

Читать далее