35 подписчиков

Alibaba выпустила Qwen3.5-Omni — мультимодальный ИИ, который пишет код по видеозаписи экрана

1 апреля1 апр

3 мин

Команда Qwen от Alibaba представила новую генерацию полностью мультимодальной модели — Qwen3.5-Omni. Это не просто очередной большой языковой модель, а настоящий шаг к «omni-modal AGI» — искусственному интеллекту, который изначально понимает и генерирует текст, изображения, аудио и видео в едином конвейере. Модель поддерживает три варианта: Plus, Flash и Light. Все они работают с контекстом до 256K токенов, что позволяет обрабатывать: Модель обучена на огромных объёмах данных: текст, визуальная информация и свыше 100 миллионов часов аудио-видео контента. Благодаря нативной мультимодальной предобучке (early-fusion) она не склеивает отдельные модальности, а понимает их вместе в одном проходе. Ключевые улучшения по сравнению с предыдущей версией: Самая интересная и неожиданно возникшая способность модели — Audio-Visual Vibe Coding («вибро-кодинг» по аудио и видео). Вы просто записываете экран (или снимаете на камеру), говорите вслух, что хотите получить, и модель пишет рабочий код на осно

Оглавление

Что умеет Qwen3.5-Omni
Главная «вау»-фича: Audio-Visual Vibe Coding
Производительность и сравнение с конкурентами

Команда Qwen от Alibaba представила новую генерацию полностью мультимодальной модели — Qwen3.5-Omni. Это не просто очередной большой языковой модель, а настоящий шаг к «omni-modal AGI» — искусственному интеллекту, который изначально понимает и генерирует текст, изображения, аудио и видео в едином конвейере.

Что умеет Qwen3.5-Omni

Модель поддерживает три варианта: Plus, Flash и Light. Все они работают с контекстом до 256K токенов, что позволяет обрабатывать:

Более 10 часов аудио за один запрос.
Более 400 секунд видео в разрешении 720p (при 1 FPS).

Модель обучена на огромных объёмах данных: текст, визуальная информация и свыше 100 миллионов часов аудио-видео контента. Благодаря нативной мультимодальной предобучке (early-fusion) она не склеивает отдельные модальности, а понимает их вместе в одном проходе.

Ключевые улучшения по сравнению с предыдущей версией:

Распознавание речи в 113 языках и диалектах.
Генерация речи в 36 языках.
Поддержка voice cloning (клонирование голоса по короткому образцу).
Семантическое прерывание разговора, голосовое управление и реал-тайм взаимодействие.

Главная «вау»-фича: Audio-Visual Vibe Coding

Самая интересная и неожиданно возникшая способность модели — Audio-Visual Vibe Coding («вибро-кодинг» по аудио и видео).

Вы просто записываете экран (или снимаете на камеру), говорите вслух, что хотите получить, и модель пишет рабочий код на основе того, что видит и слышит. Без текстового промпта в классическом смысле.

Примеры использования:

Показываете экран с интерфейсом или багом → говорите «исправь это» или «сделай такую же страницу, но с боковой панелью».
Рисуете от руки wireframe приложения и объясняете голосом → модель генерирует готовый React-код или полноценный веб-сайт.
Показываете видео игрового прототипа → просите сделать похожую игру.

Это работает, потому что модель одновременно обрабатывает визуальный контекст (UI-элементы, расположение, поведение) и голосовые инструкции, сохраняя связь между ними. Разработчики Alibaba отмечают, что такая способность «выросла» сама по себе при масштабировании мультимодальных данных.

Производительность и сравнение с конкурентами

По результатам тестов Qwen3.5-Omni-Plus показал State-of-the-Art (SOTA) на 215 подзадачах, связанных с аудио, видео, распознаванием речи, переводом и взаимодействием.

Модель превосходит Gemini-3.1 Pro в большинстве аудио-задач (понимание, рассуждение, распознавание, перевод, диалог) и достигает сопоставимого уровня в аудио-визуальном понимании в целом. При этом текстовые и визуальные возможности остаются на уровне обычных Qwen3.5 того же размера.

Дополнительно модель отлично генерирует детальные, структурированные описания видео (с таймстампами, сегментацией и описанием персонажей/действий) — на уровне сценария фильма.

Как пользоваться

Модель уже доступна:

Через Qwen Chat (для обычных пользователей).
Через Alibaba Cloud Model Studio (Offline API и Realtime API).
Цена очень демократичная: менее 0,8 юаня за миллион токенов (примерно в 10 раз дешевле Gemini-3.1 Pro).

Поддерживаются как пакетная обработка видео/аудио, так и реал-тайм разговор с голосом и видео.

Что это значит для разработчиков и индустрии

Qwen3.5-Omni открывает новые сценарии:

Быстрое прототипирование интерфейсов и приложений по видеозаписям или живому разговору.
Автоматический разбор длинных записей встреч, туториалов или стримов с генерацией кода/отчётов.
Создание голосовых ассистентов с глубоким пониманием визуального контекста.
Ускорение разработки для no-code/low-code платформ.

«Audio-Visual Vibe Coding» — это ещё один намёк на то, что будущее программирования может сильно измениться: вместо того чтобы подробно описывать задачу текстом, достаточно показать и рассказать.

Alibaba продолжает активно конкурировать с OpenAI, Google и Anthropic, предлагая мощные открытые и доступные модели. Qwen3.5-Omni — яркий пример того, как мультимодальность перестаёт быть «дополнительной фичей» и становится основой новой парадигмы взаимодействия с ИИ.