Справочник по экосистеме Qwen от Alibaba Cloud: линейка моделей, мультимодальность, tool use, лицензии, сравнение с Llama и Mistral, где попробовать.
Qwen (通义千问, Tongyi Qianwen) — семейство больших языковых и мультимодальных моделей от Alibaba Cloud. Проект стартовал в апреле 2023 года и к 2026-му вырос в одну из крупнейших open-source экосистем: более 100 открытых моделей, свыше 40 миллионов скачиваний и поддержка 201 языка.
Линейка моделей
Qwen включает несколько семейств, каждое из которых закрывает свою задачу:
Семейство Назначение Актуальная версия Qwen3.5 Основная текстовая линейка (dense и MoE) Qwen3.5-397B-A17B, Qwen3.5-Plus Qwen3.5-Omni Нативная мультимодальность: текст + изображения + аудио + видео Qwen3.5-Omni, Qwen3.5-Omni-Plus Qwen-VL Визуальные языковые модели (понимание изображений и видео) Qwen3-VL QwQ Модели с усиленным рассуждением (аналог o1) QwQ-32B Qwen-Coder Специализированные модели для кода и агентного программирования Qwen3-Coder-Next Qwen-Audio Понимание и обработка аудио Qwen2-Audio Qwen-Image Генерация изображений (инфографика, фотореализм) Qwen-Image-2.0
Размеры и архитектура
Qwen выпускает модели в двух архитектурных вариантах:
- Dense (плотные) — все параметры активны при каждом запросе. Размеры: 0.6B, 1.7B, 4B, 8B, 9B, 14B, 32B
- MoE (Mixture of Experts) — активируется только часть параметров, что снижает стоимость инференса. Размеры: 30B-A3B (активны 3B), 235B-A22B (активны 22B), 397B-A17B (активны 17B)
Флагманская модель Qwen3.5-397B-A17B при инференсе использует только 17 миллиардов параметров из 397 — это делает её значительно дешевле в эксплуатации, чем плотные модели сопоставимого качества.
Мультимодальность
Qwen3.5-Omni — флагманская мультимодальная модель, которая обрабатывает текст, изображения, аудио и видео в едином вычислительном конвейере. Ключевые возможности:
- Нативная обработка модальностей — не «обёртка» из отдельных энкодеров, а end-to-end архитектура
- Голосовое взаимодействие в реальном времени — движок Thinker-Talker с поддержкой семантических прерываний
- Клонирование голоса — загрузите образец голоса, и модель ответит этим голосом (через API)
- До 10 часов аудио или 400 секунд видео 720p за один запрос
- Распознавание 113 языков в речи, поддержка 201 языка в тексте
- Контекстное окно 256K токенов (Qwen3.5-Plus — до 1M токенов)
- Встроенный веб-поиск для ответов на вопросы о текущих событиях
Tool use и агентные сценарии
Начиная с Qwen3.5, модели поддерживают адаптивный tool use — вызов внешних инструментов и API прямо из контекста разговора. Qwen3.5-Plus предлагает встроенные инструменты «из коробки» через Alibaba Cloud Model Studio.
Qwen3-Coder-Next — отдельная модель, заточенная под агентное программирование: она обучена на масштабных задачах с исполняемым кодом, взаимодействием со средой и обучением с подкреплением. Подходит для локальных coding-агентов.
Qwen также лежит в основе продуктов Alibaba — например, Accio для автоматизации аналитики рынка и закупок.
Лицензии
Большинство моделей Qwen распространяются под лицензией Apache 2.0 — можно использовать в коммерческих проектах без ограничений. Исключения:
- Некоторые крупные модели (например, Qwen2.5-VL-72B) используют Qwen Research License с дополнительными условиями
- Проприетарные модели (Qwen3.5-Plus, Qwen3-Max) доступны только через API Alibaba Cloud
Важно: Qwen публикует веса моделей, но не код обучения и не описание обучающих данных. Формально это не соответствует определению Open Source AI от Linux Foundation, хотя в сообществе модели принято называть open-source.
Сравнение с Llama и Mistral
Параметр Qwen3.5 Llama 4 (Meta) Mistral (Small 4) Архитектура Dense + MoE Dense + MoE Dense + MoE Максимальный размер 397B (A17B) Maverick 400B+ Large 2 (123B) Мультимодальность Текст, изображения, аудио, видео (нативная) Текст, изображения Текст, изображения Контекст 256K (до 1M) 128K–1M 128K Языки 201 ~100 ~12 Tool use Да (адаптивный) Да Да Лицензия Apache 2.0 (большинство) Llama License Apache 2.0 Стоимость API (вход/1M) ~$0.39 ~$0.19–0.49 ~$0.10 Стоимость API (выход/1M) ~$2.34 ~$0.19–0.49 ~$0.30
Главное преимущество Qwen — нативная мультимодальность и самая широкая языковая поддержка. Llama сильнее в соотношении цена/качество для текстовых задач. Mistral — самый доступный по цене вариант для задач, не требующих мультимодальности.
Где попробовать
По теме
Если вы выбираете модель для своего проекта и хотите разобраться, какая архитектура подойдёт именно вам — давайте обсудим.