105 подписчиков

Qwen (Alibaba) — экосистема open-source мультимодальных моделей

2 апреля2 апр

4 мин

Справочник по экосистеме Qwen от Alibaba Cloud: линейка моделей, мультимодальность, tool use, лицензии, сравнение с Llama и Mistral, где попробовать. Qwen (通义千问, Tongyi Qianwen) — семейство больших языковых и мультимодальных моделей от Alibaba Cloud. Проект стартовал в апреле 2023 года и к 2026-му вырос в одну из крупнейших open-source экосистем: более 100 открытых моделей, свыше 40 миллионов скачиваний и поддержка 201 языка. Qwen включает несколько семейств, каждое из которых закрывает свою задачу: Семейство Назначение Актуальная версия Qwen3.5 Основная текстовая линейка (dense и MoE) Qwen3.5-397B-A17B, Qwen3.5-Plus Qwen3.5-Omni Нативная мультимодальность: текст + изображения + аудио + видео Qwen3.5-Omni, Qwen3.5-Omni-Plus Qwen-VL Визуальные языковые модели (понимание изображений и видео) Qwen3-VL QwQ Модели с усиленным рассуждением (аналог o1) QwQ-32B Qwen-Coder Специализированные модели для кода и агентного программирования Qwen3-Coder-Next Qwen-Audio Понимание и обработ

Оглавление

Линейка моделей
Размеры и архитектура
Мультимодальность

Справочник по экосистеме Qwen от Alibaba Cloud: линейка моделей, мультимодальность, tool use, лицензии, сравнение с Llama и Mistral, где попробовать.

Qwen (通义千问, Tongyi Qianwen) — семейство больших языковых и мультимодальных моделей от Alibaba Cloud. Проект стартовал в апреле 2023 года и к 2026-му вырос в одну из крупнейших open-source экосистем: более 100 открытых моделей, свыше 40 миллионов скачиваний и поддержка 201 языка.

Линейка моделей

Qwen включает несколько семейств, каждое из которых закрывает свою задачу:

Семейство Назначение Актуальная версия Qwen3.5 Основная текстовая линейка (dense и MoE) Qwen3.5-397B-A17B, Qwen3.5-Plus Qwen3.5-Omni Нативная мультимодальность: текст + изображения + аудио + видео Qwen3.5-Omni, Qwen3.5-Omni-Plus Qwen-VL Визуальные языковые модели (понимание изображений и видео) Qwen3-VL QwQ Модели с усиленным рассуждением (аналог o1) QwQ-32B Qwen-Coder Специализированные модели для кода и агентного программирования Qwen3-Coder-Next Qwen-Audio Понимание и обработка аудио Qwen2-Audio Qwen-Image Генерация изображений (инфографика, фотореализм) Qwen-Image-2.0

Размеры и архитектура

Qwen выпускает модели в двух архитектурных вариантах:

Dense (плотные) — все параметры активны при каждом запросе. Размеры: 0.6B, 1.7B, 4B, 8B, 9B, 14B, 32B
MoE (Mixture of Experts) — активируется только часть параметров, что снижает стоимость инференса. Размеры: 30B-A3B (активны 3B), 235B-A22B (активны 22B), 397B-A17B (активны 17B)

Флагманская модель Qwen3.5-397B-A17B при инференсе использует только 17 миллиардов параметров из 397 — это делает её значительно дешевле в эксплуатации, чем плотные модели сопоставимого качества.

Мультимодальность

Qwen3.5-Omni — флагманская мультимодальная модель, которая обрабатывает текст, изображения, аудио и видео в едином вычислительном конвейере. Ключевые возможности:

Нативная обработка модальностей — не «обёртка» из отдельных энкодеров, а end-to-end архитектура
Голосовое взаимодействие в реальном времени — движок Thinker-Talker с поддержкой семантических прерываний
Клонирование голоса — загрузите образец голоса, и модель ответит этим голосом (через API)
До 10 часов аудио или 400 секунд видео 720p за один запрос
Распознавание 113 языков в речи, поддержка 201 языка в тексте
Контекстное окно 256K токенов (Qwen3.5-Plus — до 1M токенов)
Встроенный веб-поиск для ответов на вопросы о текущих событиях

Tool use и агентные сценарии

Начиная с Qwen3.5, модели поддерживают адаптивный tool use — вызов внешних инструментов и API прямо из контекста разговора. Qwen3.5-Plus предлагает встроенные инструменты «из коробки» через Alibaba Cloud Model Studio.

Qwen3-Coder-Next — отдельная модель, заточенная под агентное программирование: она обучена на масштабных задачах с исполняемым кодом, взаимодействием со средой и обучением с подкреплением. Подходит для локальных coding-агентов.

Qwen также лежит в основе продуктов Alibaba — например, Accio для автоматизации аналитики рынка и закупок.

Лицензии

Большинство моделей Qwen распространяются под лицензией Apache 2.0 — можно использовать в коммерческих проектах без ограничений. Исключения:

Некоторые крупные модели (например, Qwen2.5-VL-72B) используют Qwen Research License с дополнительными условиями
Проприетарные модели (Qwen3.5-Plus, Qwen3-Max) доступны только через API Alibaba Cloud

Важно: Qwen публикует веса моделей, но не код обучения и не описание обучающих данных. Формально это не соответствует определению Open Source AI от Linux Foundation, хотя в сообществе модели принято называть open-source.

Сравнение с Llama и Mistral

Параметр Qwen3.5 Llama 4 (Meta) Mistral (Small 4) Архитектура Dense + MoE Dense + MoE Dense + MoE Максимальный размер 397B (A17B) Maverick 400B+ Large 2 (123B) Мультимодальность Текст, изображения, аудио, видео (нативная) Текст, изображения Текст, изображения Контекст 256K (до 1M) 128K–1M 128K Языки 201 ~100 ~12 Tool use Да (адаптивный) Да Да Лицензия Apache 2.0 (большинство) Llama License Apache 2.0 Стоимость API (вход/1M) ~$0.39 ~$0.19–0.49 ~$0.10 Стоимость API (выход/1M) ~$2.34 ~$0.19–0.49 ~$0.30

Главное преимущество Qwen — нативная мультимодальность и самая широкая языковая поддержка. Llama сильнее в соотношении цена/качество для текстовых задач. Mistral — самый доступный по цене вариант для задач, не требующих мультимодальности.

Где попробовать

Чат: chat.qwen.ai — бесплатный веб-интерфейс с доступом ко всем модальностям
API: Alibaba Cloud Model Studio — официальный API с оплатой по токенам
OpenRouter: openrouter.ai/qwen — доступ к 60+ моделям Qwen через единый API
Hugging Face: huggingface.co/Qwen — загрузка весов для локального запуска
GitHub: github.com/QwenLM/Qwen — код, документация, примеры

По теме

Если вы выбираете модель для своего проекта и хотите разобраться, какая архитектура подойдёт именно вам — давайте обсудим.

Читать на сайте pimenov.ai

Гаджеты и электроника

5,73 млн интересуются