В конце марта 2026 года команда Alibaba анонсировала новую серию моделей Qwen 3.6. Подробностей пока немного, но уже можно увидеть, что это за система, чем она отличается от ранних версий и в каких ситуациях может пригодиться.
Разбираемся, опираясь лишь на доступные факты, без громкой рекламы.
Что представляет собой Qwen 3.6
Qwen 3.6 — продолжение линейки больших языковых моделей Alibaba. Если Qwen 2.5 был надёжным «рабочим конём», а Qwen 3 и 3.5 сделали шаг к автономной работе (агентности), то 3.6 пытается соперничать с лучшими проприетарными решениями.
Разработчики акцентировали внимание не столько на улучшении ответов на отдельные запросы, сколько на способности модели самостоятельно выполнять длительные цепочки действий: планировать, писать код, находить и исправлять ошибки, взаимодействовать с внешними сервисами и продвигаться вперёд без постоянных подсказок.
Ключевое техническое новшество — контекстное окно в один миллион токенов (примерно 750 тыс. слов, т.е. несколько романов одновременно). Благодаря такому объёму модель может хранить в «памяти» весь проект: переписку, код, документацию, результаты предыдущих шагов. Это меняет способы применения от простого «длиннее» к принципиально новому.
Ещё один важный момент — гибридная архитектура, сочетающая линейное внимание и разреженную смесь экспертов (Mixture of Experts, MoE). Это уменьшает вычислительные затраты и ускоряет обработку больших данных за счёт активации только необходимых компонентов.
Два варианта: Plus и открытая MoE‑модель
Серия Qwen 3.6 предлагает два основных продукта, которые часто смешивают.
Qwen 3.6‑Plus — закрытая модель‑флагман, доступная лишь через API (Alibaba Cloud Model Studio, OpenRouter). Она поддерживает текст, изображения и видео, умеет работать с контекстом в 1 млн токенов и показывает результаты на уровне Claude Opus и GPT‑5. Это мощный, но платный сервис.
Qwen 3.6‑35B‑A3B — открытая модель, веса которой размещены на Hugging Face под лицензией Apache 2.0. Архитектура MoE: 35 млрд параметров, но при генерации токена активны лишь 3 млрд, что позволяет запускать её на сравнительно скромном оборудовании. Мультимодальна (текст + изображения), нативный контекст — 262 144 токена, а с растяжением YaRN достигает около 1 010 000 токенов.
Итого: Plus — для тех, кто готов платить за максимальную производительность через облако; открытая версия — для пользователей, желающих полностью контролировать запуск и избежать зависимости от сервисов.
Результаты тестов
Бенчмарки показывают, где модель стоит среди конкурентов.
- SWE‑bench Verified (поиск и исправление багов на GitHub): 78,8 балла; у Claude Opus 4.5 — 80,9.
- Terminal‑Bench 2.0 (работа в реальном Linux‑терминале): 61,6 балла — лучший показатель среди сравниваемых, включая Claude и GLM5.
- RealWorldQA (вопросы по реальным фотографиям): 85,4 балла, превосходя GPT‑5.2 и Gemini‑3 Pro (по 83,3).
- Code Arena (рейтинг LMArena): второе место в React‑задачах, обойдя GPT‑5.0‑High и Gemini 3.1 Pro.
Открытая Qwen 3.6‑35B‑A3B также демонстрирует достойные цифры: в SWE‑bench Verified — 73,4, в Terminal‑Bench 2.0 — 51,5, в GPQA — 86, в AIME26 — 92,7. По сравнению с Qwen 3.5‑35B‑A3B её показатель в Terminal‑Bench вырос на 11 баллов, а в задачах с изображениями модель сопоставима с Claude Sonnet 4.5.
Где Qwen 3.6 действительно полезна
Модель ориентирована прежде всего на задачи разработки и сложные сценарии, а не на «болтливый» чат.
- Автономное программирование. По скриншоту сайта или мок‑апу модель генерирует готовый HTML/CSS/JS. В тесте QwenWebBench она набрала 1501,7 балла, опередив Kimi‑K2.5 (1159,5).
- Работа с объёмным кодом. Миллион токенов позволяют анализировать целые репозитории, объединять сведения из протоколов встреч и формировать многоэтапные планы.
- Взаимодействие с внешними инструментами. Поддержка API, терминала, вызов функций делает её полноценным агентом, а не только генератором текста.
- Мультимодальные задачи. Обработка изображений и скриншотов, понимание визуального контекста.
В обычных разговорных задачах модель может уступать ChatGPT, но в профессиональных сценариях раскрывается полностью.
Кроме того, Qwen 3.6 совместима с протоколами Anthropic и OpenAI, её можно подключать к таким агентным обёрткам, как Claude Code, Cline, Aider, без необходимости переписывать скрипты.
Запуск модели локально
Для тех, кто планирует запустить Qwen 3.6‑35B‑A3B на собственном железе, важны несколько нюансов.
Аппаратные требования. В режиме BF16 модель весит около 70 ГБ. При квантизации до 4 бит (AWQ/GPTQ) и использовании FlashAttention её можно разместить на одной RTX 4090 (24 ГБ) или L40S (48 ГБ). Квантованные версии GGUF (например, Q4_K_M) занимают 21–22 ГБ и работают даже на системах с 8 ГБ VRAM + 32 ГБ RAM, хотя и медленнее.
Скорость. На RTX 4070 (8 ГБ) с квантизацией модель генерирует 15–20 токенов в секунду; небольшие проекты формируются за 20–30 минут. На более мощных видеокартах время сокращается пропорционально.
Настройки. Рекомендации: temperature 0.7, top_p 0.8 для общих задач; temperature 1.0, top_p 0.95 для рассуждений; temperature 0.6, top_p 0.95 для точного кодинга. При локальном запуске контекст лучше ограничивать 60 000 токенами, оставляя 10–15 % RAM свободными, иначе возможны замедления, галлюцинации и спутанные ответы.
Технические детали. При работе с CUDA 13.2 иногда возникают проблемы вывода, над которыми NVIDIA уже работает. Модель имеет два режима: «thinking» (рассуждения) и «non‑thinking» (быстрые ответы); для кодинга часто отключают «thinking».
Поддержка большинства фреймворков: vLLM, SGLang, KTransformers, Hugging Face Transformers, LM Studio, llama.cpp и т.п. Пакет Unsloth предоставляет оптимизированные GGUF‑кванты с хорошим соотношением скорости и размера.
Ограничения
Как и любой новый релиз, Qwen 3.6 обладает рядом недостатков:
- Недостаточная зрелость. В тестах по верстке модель иногда уступает Gemma 4, которая, хотя и медленнее, выдаёт рабочий результат.
- Нестабильность при неправильных параметрах. Возможны галлюцинации, смешивание языков и бессвязный вывод, если параметры настроены неудачно.
- Неидеальная агентность. При решении сложных многошаговых задач модель может отклоняться от цели. Рекомендуют делить задачи на более мелкие части.
- Высокий порог входа для локального запуска. Не у всех есть RTX 4090; на слабом оборудовании модель будет работать медленно, а API требует финансовых расходов.
- Документация в разработке. На момент написания официальные руководства ещё не полностью готовы, поэтому часть информации приходится искать в сообществах.
Кому это может пригодиться
Итоговый вопрос — нужна ли вам эта модель.
Qwen 3.6‑Plus через API подходит тем, кто ищет производительность уровня Claude Opus или GPT‑5, но по более доступной цене (примерно $0.50 за миллион токенов на OpenRouter). Это хорошее решение для стартапов, разработчиков и исследователей, которым нужен мощный облачный агент.
Qwen 3.6‑35B‑A3B для локального использования интересна пользователям с подходящим железом, желающим полностью контролировать модель и избегать облачных ограничений. Её могут оценить энтузиасты, небольшие компании и команды, которым важна конфиденциальность кода.
Если же у вас нет мощной видеокарты и вы не планируете платить за API, лучше подождать появления более лёгких вариантов или будущих моделей серии, например Qwen 3.6‑Max.
Подытоживая: Qwen 3.6 — действительно конкурентоспособная модель, способная соперничать с лучшими закрытыми решениями, но требующая чёткого понимания целей использования и правильных настроек. Это не «универсальная таблетка», однако в роли специализированного помощника для разработки и комплексных задач она проявляет себя на высоком уровне.
Еще больше интересных статей на https://prostouznat.ru/