124 подписчика

Qwen3.6: что интересного в новой версии и стоит ли она внимания

20 апреля20 апр

170

6 мин

В конце марта 2026 года команда Alibaba анонсировала новую серию моделей Qwen 3.6. Подробностей пока немного, но уже можно увидеть, что это за система, чем она отличается от ранних версий и в каких ситуациях может пригодиться. Разбираемся, опираясь лишь на доступные факты, без громкой рекламы. Qwen 3.6 — продолжение линейки больших языковых моделей Alibaba. Если Qwen 2.5 был надёжным «рабочим конём», а Qwen 3 и 3.5 сделали шаг к автономной работе (агентности), то 3.6 пытается соперничать с лучшими проприетарными решениями. Разработчики акцентировали внимание не столько на улучшении ответов на отдельные запросы, сколько на способности модели самостоятельно выполнять длительные цепочки действий: планировать, писать код, находить и исправлять ошибки, взаимодействовать с внешними сервисами и продвигаться вперёд без постоянных подсказок. Ключевое техническое новшество — контекстное окно в один миллион токенов (примерно 750 тыс. слов, т.е. несколько романов одновременно). Благодаря такому об

Оглавление

Что представляет собой Qwen 3.6
Два варианта: Plus и открытая MoE‑модель
Результаты тестов

Разбираемся, опираясь лишь на доступные факты, без громкой рекламы.

Что представляет собой Qwen 3.6

Qwen 3.6 — продолжение линейки больших языковых моделей Alibaba. Если Qwen 2.5 был надёжным «рабочим конём», а Qwen 3 и 3.5 сделали шаг к автономной работе (агентности), то 3.6 пытается соперничать с лучшими проприетарными решениями.

Разработчики акцентировали внимание не столько на улучшении ответов на отдельные запросы, сколько на способности модели самостоятельно выполнять длительные цепочки действий: планировать, писать код, находить и исправлять ошибки, взаимодействовать с внешними сервисами и продвигаться вперёд без постоянных подсказок.

Ключевое техническое новшество — контекстное окно в один миллион токенов (примерно 750 тыс. слов, т.е. несколько романов одновременно). Благодаря такому объёму модель может хранить в «памяти» весь проект: переписку, код, документацию, результаты предыдущих шагов. Это меняет способы применения от простого «длиннее» к принципиально новому.

Ещё один важный момент — гибридная архитектура, сочетающая линейное внимание и разреженную смесь экспертов (Mixture of Experts, MoE). Это уменьшает вычислительные затраты и ускоряет обработку больших данных за счёт активации только необходимых компонентов.

Два варианта: Plus и открытая MoE‑модель

Серия Qwen 3.6 предлагает два основных продукта, которые часто смешивают.

Qwen 3.6‑Plus — закрытая модель‑флагман, доступная лишь через API (Alibaba Cloud Model Studio, OpenRouter). Она поддерживает текст, изображения и видео, умеет работать с контекстом в 1 млн токенов и показывает результаты на уровне Claude Opus и GPT‑5. Это мощный, но платный сервис.

Qwen 3.6‑35B‑A3B — открытая модель, веса которой размещены на Hugging Face под лицензией Apache 2.0. Архитектура MoE: 35 млрд параметров, но при генерации токена активны лишь 3 млрд, что позволяет запускать её на сравнительно скромном оборудовании. Мультимодальна (текст + изображения), нативный контекст — 262 144 токена, а с растяжением YaRN достигает около 1 010 000 токенов.

Итого: Plus — для тех, кто готов платить за максимальную производительность через облако; открытая версия — для пользователей, желающих полностью контролировать запуск и избежать зависимости от сервисов.

Результаты тестов

Бенчмарки показывают, где модель стоит среди конкурентов.

SWE‑bench Verified (поиск и исправление багов на GitHub): 78,8 балла; у Claude Opus 4.5 — 80,9.
Terminal‑Bench 2.0 (работа в реальном Linux‑терминале): 61,6 балла — лучший показатель среди сравниваемых, включая Claude и GLM5.
RealWorldQA (вопросы по реальным фотографиям): 85,4 балла, превосходя GPT‑5.2 и Gemini‑3 Pro (по 83,3).
Code Arena (рейтинг LMArena): второе место в React‑задачах, обойдя GPT‑5.0‑High и Gemini 3.1 Pro.

Открытая Qwen 3.6‑35B‑A3B также демонстрирует достойные цифры: в SWE‑bench Verified — 73,4, в Terminal‑Bench 2.0 — 51,5, в GPQA — 86, в AIME26 — 92,7. По сравнению с Qwen 3.5‑35B‑A3B её показатель в Terminal‑Bench вырос на 11 баллов, а в задачах с изображениями модель сопоставима с Claude Sonnet 4.5.

Где Qwen 3.6 действительно полезна

Модель ориентирована прежде всего на задачи разработки и сложные сценарии, а не на «болтливый» чат.

Автономное программирование. По скриншоту сайта или мок‑апу модель генерирует готовый HTML/CSS/JS. В тесте QwenWebBench она набрала 1501,7 балла, опередив Kimi‑K2.5 (1159,5).
Работа с объёмным кодом. Миллион токенов позволяют анализировать целые репозитории, объединять сведения из протоколов встреч и формировать многоэтапные планы.
Взаимодействие с внешними инструментами. Поддержка API, терминала, вызов функций делает её полноценным агентом, а не только генератором текста.
Мультимодальные задачи. Обработка изображений и скриншотов, понимание визуального контекста.

В обычных разговорных задачах модель может уступать ChatGPT, но в профессиональных сценариях раскрывается полностью.

Кроме того, Qwen 3.6 совместима с протоколами Anthropic и OpenAI, её можно подключать к таким агентным обёрткам, как Claude Code, Cline, Aider, без необходимости переписывать скрипты.

Запуск модели локально

Для тех, кто планирует запустить Qwen 3.6‑35B‑A3B на собственном железе, важны несколько нюансов.

Аппаратные требования. В режиме BF16 модель весит около 70 ГБ. При квантизации до 4 бит (AWQ/GPTQ) и использовании FlashAttention её можно разместить на одной RTX 4090 (24 ГБ) или L40S (48 ГБ). Квантованные версии GGUF (например, Q4_K_M) занимают 21–22 ГБ и работают даже на системах с 8 ГБ VRAM + 32 ГБ RAM, хотя и медленнее.

Скорость. На RTX 4070 (8 ГБ) с квантизацией модель генерирует 15–20 токенов в секунду; небольшие проекты формируются за 20–30 минут. На более мощных видеокартах время сокращается пропорционально.

Настройки. Рекомендации: temperature 0.7, top_p 0.8 для общих задач; temperature 1.0, top_p 0.95 для рассуждений; temperature 0.6, top_p 0.95 для точного кодинга. При локальном запуске контекст лучше ограничивать 60 000 токенами, оставляя 10–15 % RAM свободными, иначе возможны замедления, галлюцинации и спутанные ответы.

Технические детали. При работе с CUDA 13.2 иногда возникают проблемы вывода, над которыми NVIDIA уже работает. Модель имеет два режима: «thinking» (рассуждения) и «non‑thinking» (быстрые ответы); для кодинга часто отключают «thinking».

Поддержка большинства фреймворков: vLLM, SGLang, KTransformers, Hugging Face Transformers, LM Studio, llama.cpp и т.п. Пакет Unsloth предоставляет оптимизированные GGUF‑кванты с хорошим соотношением скорости и размера.

Ограничения

Как и любой новый релиз, Qwen 3.6 обладает рядом недостатков:

Недостаточная зрелость. В тестах по верстке модель иногда уступает Gemma 4, которая, хотя и медленнее, выдаёт рабочий результат.
Нестабильность при неправильных параметрах. Возможны галлюцинации, смешивание языков и бессвязный вывод, если параметры настроены неудачно.
Неидеальная агентность. При решении сложных многошаговых задач модель может отклоняться от цели. Рекомендуют делить задачи на более мелкие части.
Высокий порог входа для локального запуска. Не у всех есть RTX 4090; на слабом оборудовании модель будет работать медленно, а API требует финансовых расходов.
Документация в разработке. На момент написания официальные руководства ещё не полностью готовы, поэтому часть информации приходится искать в сообществах.

Кому это может пригодиться

Итоговый вопрос — нужна ли вам эта модель.

Qwen 3.6‑Plus через API подходит тем, кто ищет производительность уровня Claude Opus или GPT‑5, но по более доступной цене (примерно $0.50 за миллион токенов на OpenRouter). Это хорошее решение для стартапов, разработчиков и исследователей, которым нужен мощный облачный агент.

Qwen 3.6‑35B‑A3B для локального использования интересна пользователям с подходящим железом, желающим полностью контролировать модель и избегать облачных ограничений. Её могут оценить энтузиасты, небольшие компании и команды, которым важна конфиденциальность кода.

Если же у вас нет мощной видеокарты и вы не планируете платить за API, лучше подождать появления более лёгких вариантов или будущих моделей серии, например Qwen 3.6‑Max.

Подытоживая: Qwen 3.6 — действительно конкурентоспособная модель, способная соперничать с лучшими закрытыми решениями, но требующая чёткого понимания целей использования и правильных настроек. Это не «универсальная таблетка», однако в роли специализированного помощника для разработки и комплексных задач она проявляет себя на высоком уровне.

Еще больше интересных статей на https://prostouznat.ru/