Добавить в корзинуПозвонить
Найти в Дзене
File Energy

Alibaba выпустила Qwen3.5-Omni с нативной мультимодальной архитектурой и способностью писать код по голосовым командам через камеру

Конец марта 2026 года принёс любителям искусственного интеллекта новость, которая заставила индустрию пересмотреть представления о мультимодальных системах. Команда Qwen из Alibaba Cloud представила Qwen3.5-Omni - модель, работающую с текстом, изображениями, аудио и видео в рамках единой нативной архитектуры. Не сборка из отдельных компонентов, не надстройка поверх текстового ядра с приклеенными модулями распознавания речи. Полноценная омнимодальная система, обученная с первого слоя воспринимать все четыре типа входных данных одновременно. Большинство существующих мультимодальных решений идут по проверенному пути. Берётся сильная языковая модель, к ней прикручивается Whisper для речи, отдельный энкодер для картинок, ещё модуль для видео, и всё это склеивается адаптерами. Подход рабочий, но громоздкий. Каждое переключение между модальностями требует преобразования формата, а латентность копится с каждым звеном в цепочке. Разработчики из Ханчжоу решили проблему радикально. Переписали арх
Оглавление

Конец марта 2026 года принёс любителям искусственного интеллекта новость, которая заставила индустрию пересмотреть представления о мультимодальных системах. Команда Qwen из Alibaba Cloud представила Qwen3.5-Omni - модель, работающую с текстом, изображениями, аудио и видео в рамках единой нативной архитектуры. Не сборка из отдельных компонентов, не надстройка поверх текстового ядра с приклеенными модулями распознавания речи. Полноценная омнимодальная система, обученная с первого слоя воспринимать все четыре типа входных данных одновременно.

Большинство существующих мультимодальных решений идут по проверенному пути. Берётся сильная языковая модель, к ней прикручивается Whisper для речи, отдельный энкодер для картинок, ещё модуль для видео, и всё это склеивается адаптерами. Подход рабочий, но громоздкий. Каждое переключение между модальностями требует преобразования формата, а латентность копится с каждым звеном в цепочке. Разработчики из Ханчжоу решили проблему радикально. Переписали архитектуру с чистого листа, заложив совместную работу со всеми потоками данных в основу системы.

Архитектура Thinker-Talker с гибридным вниманием решает задачу разделения анализа и генерации

Ключевую роль в новой модели играет двухкомпонентная схема. Thinker (мыслитель) отвечает за анализ входных данных всех типов. Он использует визуальный энкодер для картинок и видеокадров, аудио-токенизатор для звуковых сигналов и специальную систему временных позиционных кодировок TMRoPE, которая синхронизирует данные разных модальностей по временной шкале. Talker (говорящий) принимает эстафету и превращает внутренние представления в речевой вывод, работая в потоковом режиме для взаимодействия в реальном времени.

Обе части системы используют Hybrid-Attention Mixture of Experts - гибридное внимание с механизмом смеси экспертов. Подобный подход позволяет активировать только часть параметров модели на каждом конкретном токене, сохраняя огромный суммарный объём знаний при умеренных вычислительных затратах. Система динамически решает, какая модальность важнее для текущей задачи. При анализе видео больше веса получают визуальные токены, при диалоге по телефону - аудио-часть. Такая гибкость даёт существенный прирост скорости без ущерба для качества.

Отдельного внимания заслуживает ARIA (Adaptive Rate Interleave Alignment) - адаптивное перемежение текста и речи при синтезе. Система на лету меняет соотношение между двумя потоками в зависимости от плотности информации, которую нужно передать. Плотная техническая речь требует одной скорости, расслабленный диалог о погоде - совсем другой. Результат звучит заметно естественнее.

Audio-Visual Vibe Coding превращает видео и голос в работающий код без текстового ввода

Самая необычная возможность Qwen3.5-Omni возникла неожиданно для самих разработчиков. Команда называет её "эмерджентной способностью", то есть функцией, которой специально не обучали модель, но которая появилась сама по ходу мультимодального предобучения. Механика проста до изящества. Пользователь берёт камеру смартфона, показывает модели набросок на салфетке или на доске, голосом поясняет задумку, и на выходе получает рабочий HTML или React-код. Тут же просит увеличить кнопки, поменять раскладку, добавить анимацию - и правки появляются в реальном времени.

Технически за этим стоит способность модели выстраивать кросс-модальное соответствие между визуальной иерархией интерфейсов, вербальным намерением пользователя и символической логикой кода. Именно это Alibaba и окрестила Audio-Visual Vibe Coding. Разработчик может записать экран с ошибкой, указать курсором и голосом на проблемное место, и получить готовый патч без единой строки текстового промпта. Барьер входа для людей, не владеющих языками программирования профессионально, ощутимо снижается.

Вот ключевые технические особенности модели, которые стоит держать в уме:

  1. Контекстное окно в 256 тысяч токенов, вмещающее более десяти часов аудио или свыше 400 секунд видео 720p при одном кадре в секунду.
  2. Предобучение на более чем 100 миллионах часов аудиовизуальных данных и три варианта моделей под разные задачи (Plus, Flash и Light).
  3. Распознавание речи для 113 языков и диалектов, синтез речи для 36 языков.
  4. Встроенные функции WebSearch и Function Calling для работы с внешними инструментами, плюс клонирование голоса с сохранением индивидуального тембра.
  5. Семантическое распознавание перебиваний, отличающее настоящее желание вставить реплику от случайного кашля или бытовых шумов.

Бенчмарки показывают уверенное лидерство над Gemini 3.1 Pro по большинству направлений

По совокупности тестовых показателей флагманская версия Qwen3.5-Omni-Plus набрала 215 SOTA-результатов (state-of-the-art) в категориях аудио, аудиовизуального понимания, рассуждений и интерактивных задач. Цифра впечатляющая сама по себе. Но интереснее конкретные сравнения с основным конкурентом - Gemini 3.1 Pro от Google.

В тесте WenetSpeech, оценивающем точность распознавания китайской речи, Qwen показывает 4.30 и 5.84 пункта ошибок на двух поднаборах против 11.5 и 14.2 у Gemini. Разрыв более чем в два раза. На VoiceBench, который измеряет качество голосового диалога, новичок из Ханчжоу берёт 93.1 против 88.9. Понимание музыки на бенчмарке RUL-MuchoMusic демонстрирует ещё более внушительный отрыв - 72.4 против 59.6. В задачах распознавания видеоконтента MVBench счёт 79.0 против 74.1. По тексту на MMLU-Redux обе модели идут ноздря в ноздрю (94.2 против 95.9), что ожидаемо для таких крупных систем.

Отдельно стоит упомянуть синтез речи. На жёстком тесте "seed-hard", где модель должна естественно озвучивать сложные фразы под нагрузкой, Qwen3.5-Omni-Plus выдаёт уровень ошибок всего 6.24 процента. Для сравнения, GPT-Audio показывает 8.19, Minimax 8.62, а коммерческий ElevenLabs и вовсе 27.70. На многоязычных тестах стабильности голоса в двадцати языках модель обгоняет всех основных конкурентов с заметным запасом.

Интерактивные возможности приближают диалог с машиной к живому общению

Работа с перебиваниями заслуживает отдельного разговора. Любой, кто пользовался голосовыми ассистентами, знает их главную боль. Сказал "ага" посреди ответа, подтвердил мысль кивком с озвучкой, а система решила, что её перебили, и замолчала. Или наоборот, в фоне залаяла собака, а ассистент послушно прервал речь. Qwen3.5-Omni различает два принципиально разных сценария. Семантическое перебивание, когда человек действительно хочет вступить со значимой репликой, и обычное поддакивание или шумовые помехи. Механизм встроен прямо в API, что позволяет разработчикам создавать по-настоящему двунаправленный диалог без классических костылей.

Script-Level Captioning - ещё одна любопытная функция. Модель превращает произвольное видео в полноценный сценарий с таймкодами и чёткой привязкой реплик к говорящим. Для сравнения, аналогичный результат на конкурирующих системах требует склейки нескольких инструментов. Извлечение кадров, прогон через визуальный анализатор, отдельная транскрипция Whisper, OCR для субтитров. Минимум девять минут обработки в идеальных условиях. Qwen справляется за один проход и делает это даже на зашумлённом материале.

Поддержка 74 языков в автоматическом распознавании речи и 29 в синтезе открывает двери для глобальных применений. Возможность клонирования голоса помогает строить кастомных ассистентов с узнаваемой индивидуальностью - качество, за которое раньше приходилось платить отдельным сервисам. Встроенный WebSearch убирает застарелую проблему языковых моделей, когда система честно отвечает "не знаю" на вопросы о текущих событиях. Ассистент подтягивает свежую информацию прямо во время диалога.

Что это означает для разработчиков и индустрии в целом

Qwen3.5-Omni доступна через несколько каналов. Публичный интерфейс Qwen Chat позволяет попробовать модель без настроек. HuggingFace предоставляет открытые веса 7B-варианта для локального запуска на собственной машине. Корпоративным клиентам открыт API через Alibaba Cloud Model Studio и DashScope с полным набором возможностей. Такая трёхслойная доступность редко встречается среди топовых мультимодальных моделей. Большинство конкурентов из западных лабораторий предпочитают закрытую лицензионную модель без возможности локального развёртывания.

Выпуск Qwen3.5-Omni меняет расстановку сил в нескольких направлениях одновременно. Китайские лаборатории перестали быть догоняющими и начали задавать собственные стандарты в областях вроде аудио-обработки и мультимодальных рассуждений. Открытые веса позволяют малым командам строить продукты, которые раньше требовали бюджетов крупных корпораций. А функция Audio-Visual Vibe Coding намекает на будущее, где граница между описанием задачи и её исполнением истончается до прозрачности.

Ограничения никуда не делись. Видеопонимание работает по сэмплированным кадрам, поэтому быстрые события могут ускользать от внимания системы. Качество речевого анализа падает при сильных фоновых помехах. Сгенерированный код подходит для прототипов, но перед выкаткой в продакшн требует ревью опытного инженера. Впрочем, ни одно из замечаний не отменяет главного. Qwen3.5-Omni задаёт новую планку для того, что принято называть омнимодальным ИИ. Эпоха склеенных из разнородных компонентов мультимодальных ассистентов подходит к закату, и место на пьедестале уже занимают системы, построенные на единой архитектуре с первого дня.

https://fileenergy.com/prochee