Команда Alibaba Qwen представила Qwen3.5-Omni — модель, которая может работать с текстом, аудио, видео и обеспечивать взаимодействие в реальном времени. Это значительный шаг в эволюции мультимодальных больших языковых моделей (MLLMs). Qwen3.5-Omni разработана как прямой конкурент флагманским моделям, таким как Gemini 3.1 Pro. Она представляет собой унифицированную структуру, способную одновременно обрабатывать текст, изображения, аудио и видео в рамках единого вычислительного конвейера. Техническая значимость Qwen3.5-Omni Техническая значимость Qwen3.5-Omni заключается в её архитектуре Thinker-Talker и использовании Hybrid-Attention Mixture of Experts (MoE) во всех модальности. Этот подход позволяет модели обрабатывать огромные контекстные окна и обеспечивать взаимодействие в реальном времени без традиционных задержек, связанных с каскадными системами. Уровни модели Серия предлагается в трёх размерах, чтобы сбалансировать производительность и стоимость: * Plus: высокая сложность р
Команда Alibaba Qwen выпустила Qwen3.5 Omni: нативная мультимодальная модель для текста, аудио, видео и взаимодействия в реальном времени
31 марта31 мар
2 мин