230 подписчиков

Qwen3.6-Plus: Alibaba тихо выпустила модель, которая обошла Claude в агентском кодировании. Разбираемся, что это значит

5 апреля5 апр

310

6 мин

Пока западная пресса обсуждала очередной апдейт GPT и философствовала о сознании у ИИ, Alibaba без лишнего пафоса выкатила Qwen3.6-Plus — флагманскую модель, которая в ряде ключевых бенчмарков обошла Claude 4.5 Opus от Anthropic. Не «почти догнала», не «показала сопоставимые результаты» — именно обошла. И это не про то, кто лучше пишет стишки. Это про агентский ИИ: модели, которые не просто болтают, а действуют — запускают код, работают в терминале, анализируют документы и самостоятельно доводят задачи до конца. Давайте сразу разберёмся с терминологией, потому что слово «агент» в контексте ИИ сейчас используют все, кому не лень, и часто — не по адресу. Агентская модель — это не чат-бот с красивым интерфейсом. Это модель, которая умеет планировать последовательность шагов, вызывать внешние инструменты (браузер, терминал, API, файловую систему) и итеративно исправлять свои ошибки, пока задача не будет выполнена. По сути — цифровой джуниор-разработчик, который не спрашивает каждые пять ми

Оглавление

Агент — не тот, кто из «Матрицы»
Цифры, которые стоит запомнить
Контекст на миллион — и зачем он нужен

Агент — не тот, кто из «Матрицы»

Давайте сразу разберёмся с терминологией, потому что слово «агент» в контексте ИИ сейчас используют все, кому не лень, и часто — не по адресу. Агентская модель — это не чат-бот с красивым интерфейсом. Это модель, которая умеет планировать последовательность шагов, вызывать внешние инструменты (браузер, терминал, API, файловую систему) и итеративно исправлять свои ошибки, пока задача не будет выполнена. По сути — цифровой джуниор-разработчик, который не спрашивает каждые пять минут «а что дальше?», а сам разбирается.

И именно на этом поле Qwen3.6-Plus показывает зубы.

Цифры, которые стоит запомнить

Бенчмарки — штука скучная, но тут они рассказывают интересную историю. Вот ключевые результаты:

🏆 Terminal-Bench 2.0 (работа с терминалом и командной строкой): Qwen3.6-Plus набирает 61.6, Claude 4.5 Opus — 59.3. Впервые китайская модель обходит многолетнего чемпиона в задачах, где ИИ нужно реально «руками» работать в консоли: запускать процессы, парсить вывод, исправлять ошибки и добивать задачу до результата.

🔧 SWE-bench Verified (решение реальных issue с GitHub): здесь Claude пока впереди — 80.9 против 78.8, — но разрыв сократился до статистической погрешности. Ещё полгода назад Qwen отставал на десятки пунктов.

📄 OmniDocBench (анализ сложных документов, PDF, сканов, таблиц): абсолютное лидерство — 91.2 балла. Для любого бизнеса, который тонет в бумажках, это золотая жила. Юристы, финансисты, аудиторы — модель разбирает их документы точнее всех существующих конкурентов.

👁️ RealWorldQA (визуальное понимание реального мира): снова первое место — 85.4. Модель смотрит на фото дорожной ситуации или полки в магазине и делает осмысленные выводы, а не просто описывает «тут машина, тут дерево».

Отдельно стоит упомянуть скорость: около 158 токенов в секунду — это примерно втрое быстрее, чем у Claude 4.5 Opus. Для интерактивного агентского сценария, где модель генерирует код, проверяет его, правит и генерирует снова, скорость — это не просто удобство, это фундаментальное требование.

Контекст на миллион — и зачем он нужен

Окно контекста в 1 миллион токенов стало для Qwen3.6-Plus настройкой по умолчанию. Давайте переведём в человеческие единицы: это примерно 2 000 страниц текста. Вы можете скормить модели целый репозиторий кода, стопку юридических договоров или многочасовую расшифровку совещаний — и она будет работать со всем этим одновременно, не теряя нить.

Для агентских сценариев это критично. Когда модель решает задачу в 15-20 шагов, каждый из которых включает чтение файлов, вызов инструментов и анализ результатов, — контекст раздувается стремительно. Маленькое окно означает, что на десятом шаге модель забудет, что делала на первом. Миллион токенов — это буквально рабочая память, достаточная для серьёзных проектов.

Что под капотом: архитектурные решения

Интересная деталь, на которую мало кто обратил внимание: Qwen3.6-Plus использует гибридную архитектуру нового поколения и принцип «always-on chain-of-thought». Это значит, что модель всегда рассуждает по цепочке — нет переключателя «думать / не думать», как было в Qwen3.5. Звучит как мелочь, но для агентских задач это принципиально: каждый промежуточный шаг рассуждений сохраняется и влияет на следующие действия. Модель не «перезагружает» своё мышление на каждом ходу, а накапливает контекст решения.

Проблема предыдущей версии, Qwen3.5-Plus, была в «перемудривании» — модель тратила кучу токенов на рассуждения даже по тривиальным вопросам. В 3.6 этот баланс, судя по отзывам, найден значительно лучше: цепочка рассуждений стала короче и решительнее, без потери качества.

Ещё одна важная штука — нативная поддержка function calling и tool use. Модель из коробки умеет вызывать внешние инструменты через стандартизированный интерфейс, без костылей и prompt engineering хаков. Она интегрируется с фреймворками вроде OpenClaw, Claude Code и Cline, выступая в роли «мозга» при внешних исполнителях.

Ложка дёгтя: о чём молчит пресс-релиз

Было бы нечестно рисовать только радужную картину. Есть нюансы, которые стоит знать, прежде чем бежать строить продакшен на Qwen3.6-Plus:

⏳ Задержка первого токена (TTFT): на бесплатном тарифе через OpenRouter — в среднем 11.5 секунд. Нажимаешь Enter и ждёшь почти 12 секунд, пока модель «проснётся». Для интерактивной разработки это убивает поток. Справедливости ради, бесплатный тариф — это общие ресурсы, где ты в очереди; в платной версии ситуация наверняка будет иной.

🛡️ Безопасность кода: по скрытым тестам на security — всего 43.3% прохождения. У западных конкурентов — около 87%. Это значит, что доверять модели генерацию кода, связанного с аутентификацией, платёжными шлюзами или криптографией, пока категорически не стоит. Для прототипов и внутренних инструментов — пожалуйста. Для продакшена с чувствительными данными — нет.

📊 Preview-статус: модель сейчас в стадии превью. Alibaba собирает данные промптов и ответов для дальнейшего обучения. Не стоит отправлять через бесплатный эндпоинт конфиденциальную информацию, клиентские данные или коммерческие секреты.

Стратегия Alibaba: зачем раздавать бесплатно

Здесь начинается самое интересное — не про технологии, а про бизнес-логику. Alibaba делает классический platform play. Бесплатный доступ через OpenRouter — это не благотворительность, это стратегия привлечения разработчиков. Логика простая: чем больше людей попробуют модель → тем больше интеграций появится → тем сильнее экосистемная зависимость → тем проще конвертировать в платящих клиентов.

Модель уже интегрируется в две ключевые платформы Alibaba: Wukong — корпоративную платформу для автоматизации бизнес-процессов через мульти-агентные системы, и Qwen App — потребительское приложение. По сути, Alibaba строит не просто модель, а операционную систему для ИИ-агентов. И Qwen3.6-Plus в этой архитектуре — ядро, вокруг которого вращается всё остальное.

Кроме того, Alibaba анонсировала скорый выпуск open-source вариантов в меньших размерах. Если они сохранят хотя бы 70-80% качества флагмана, это может серьёзно пошатнуть рынок: зачем платить за облачные API, если можно запустить сопоставимую по качеству модель локально?

Мой взгляд: что всё это значит

Гонка ИИ прямо сейчас проходит точку перелома. Раньше все мерялись качеством ответов: кто точнее, кто грамотнее, кто лучше рифмует. Теперь фокус сместился на действия: чья модель эффективнее решает реальные задачи в реальной среде. И Qwen3.6-Plus — мощнейшая заявка на лидерство в этой новой парадигме.

Меня лично впечатляет не столько абсолютный результат (разница с Claude в 2-3 пункта на бенчмарках — это территория статистического шума), сколько скорость прогресса. Ещё год назад Qwen воспринимался как крепкий середнячок. Сегодня — это модель, которая в отдельных дисциплинах лучшая в мире. Темп набора мощности впечатляет, и если он сохранится, следующее поколение Qwen может оказаться для западных конкурентов по-настоящему неудобным.

Прогноз на ближайший год: агентские модели начнут массово внедряться в самых «скучных» бизнес-процессах — обработке документов, тестировании кода, подготовке отчётов, мониторинге систем. Не потому что это эффектно, а потому что это наконец-то работает достаточно надёжно. И именно Qwen3.6-Plus вместе с Claude определят, как будет выглядеть этот новый ландшафт.

Источники

🔗 Официальный анонс Qwen3.6-Plus на qwen.ai

🔗 Детальный обзор и бенчмарки на renovateqr.com

🔗 Обзорная статья на Telegraph

🔗 Пресс-релиз Alibaba Cloud Community

🔗 Страница модели на OpenRouter

🔗 Обзор Qwen 3.6 Plus Preview на BuildFastWithAI