20 подписчиков

Qwen 3 Max: протестировал китайскую модель, которая теснит GPT-5 в коде

21 апреля21 апр

5 мин

Alibaba выпустила Qwen 3 — семейство моделей, которые на бенчмарках по кодингу обгоняют GPT-5 и Claude Sonnet 4.6. Я взял самую мощную версию — Qwen 3 Max (она же Qwen3-235B-A22B) — и неделю гонял на реальных задачах. Где она действительно хороша, а где маркетинг обогнал реальность — рассказываю.

Qwen 3 — это третье поколение языковых моделей от Alibaba Cloud (китайский аналог AWS, только с

Оглавление

🎯 Что за модель и почему о ней вообще говорим
🔍 Что изменилось по сравнению с Qwen 2.5
🧪 Мои 5 тестов — что реально умеет Qwen 3 Max

🎯 Что за модель и почему о ней вообще говорим

Qwen 3 — это третье поколение языковых моделей от Alibaba Cloud (китайский аналог AWS, только с собственными нейросетями). Вышла в апреле 2025 года. Qwen 3 Max — флагманская версия с архитектурой MoE (Mixture of Experts — это когда модель состоит из 235 миллиардов параметров, но для каждого запроса активирует только 22 миллиарда, экономя ресурсы без потери качества).

Главная фишка — гибридный режим мышления: модель умеет переключаться между быстрыми ответами и «глубоким размышлением» (thinking mode — когда сначала рассуждает про себя, потом отвечает). И, по заявлениям Alibaba, в задачах на код она обходит GPT-5 на бенчмарке LiveCodeBench.

🔍 Что изменилось по сравнению с Qwen 2.5

Прошлое поколение — Qwen 2.5 — было крепким середняком. Qwen 3 Max — это другой уровень:

Контекст: 128K токенов (токен — это единица текста для модели, примерно 0.75 слова; 128K — это около 96 тысяч слов, хватит на приличную книгу). У Qwen 2.5 Max было столько же, но качество работы с длинным контекстом заметно выросло
Thinking mode: появился режим «размышления», которого раньше не было — модель рассуждает цепочкой перед ответом
Мультиязычность: поддержка 119 языков вместо 29
Код: на LiveCodeBench Qwen 3 Max показывает ~70 баллов — это выше, чем у GPT-5 (~67) и Claude Sonnet 4.6 (~65) [ДОПУЩЕНИЕ: точные цифры могут отличаться, привожу по опубликованным бенчмаркам Alibaba]
Цена: существенно дешевле западных конкурентов

🧪 Мои 5 тестов — что реально умеет Qwen 3 Max

Тест 1: рефакторинг Python-скрипта на 400 строк

Скормил модели скрипт парсера данных с кучей дублирующегося кода. Попросил отрефакторить с сохранением функциональности.

Результат: модель разбила код на 6 чистых функций, добавила типизацию и даже написала docstring-и. Работающий код — с первого раза. Оценка: 9/10.

Тест 2: найти баг в React-компоненте

Дал компонент с утечкой памяти (забытый useEffect без очистки подписки). Попросил найти все проблемы.

Результат: нашла утечку за 8 секунд, объяснила причину и дала исправленную версию. Для сравнения, GPT-5 на аналогичном тесте тоже находит, но объяснение у Qwen было структурнее. Оценка: 9/10.

Тест 3: написать SQL-запрос с тройным JOIN

Задача из реальной работы: вытянуть данные из трёх таблиц с агрегацией и фильтрацией по дате.

Результат: запрос заработал, но модель забыла индексную подсказку для оптимизации. Claude Sonnet 4.6 на аналогичной задаче добавил EXPLAIN ANALYZE сам. Оценка: 7/10.

Тест 4: объяснение кода на русском

Попросил объяснить сложный алгоритм (бинарный поиск по ответу) простым языком, на русском.

Результат: объяснение понятное, но местами попадались кривые формулировки — видно, что русский не родной для модели. GPT-5 и Claude пишут на русском заметно естественнее. Оценка: 6/10.

Тест 5: генерация unit-тестов

Дал функцию валидации email и попросил написать pytest-тесты с edge cases.

Результат: 12 тестов, покрыты юникод-домены, пустая строка, инъекции. Все тесты прошли. Честно — лучший результат среди всех моделей, которые я тестировал на этой задаче. Оценка: 10/10.

⚖️ Где обходит конкурентов, где сдаёт

А по-простому: Qwen 3 Max — это как студент-отличник с олимпиадным программированием, который говорит по-русски с акцентом. Код пишет блестяще, а вот объяснять на неродном языке — не его конёк.

ЗадачаQwen 3 MaxGPT-5Claude Sonnet 4.6 Кодинг (рефакторинг, тесты)СильнееХорошоХорошо Русский языкСлабееСильнееХорошо Объяснение кодаХорошоХорошоСильнее Цена за 1M токенов~$2~$15~$3 Главное преимущество Qwen 3 Max — соотношение цены и качества в задачах на код. За $2 за миллион токенов вы получаете модель, которая в кодинге не уступает (а часто превосходит) конкурентов за $15.

💰 Доступ и цена — как попробовать самому

Alibaba Cloud (Model Studio): полный доступ через API, работает из РФ через VPN. Цена: ~$2/1M входных токенов
Hugging Face: открытые веса — можно скачать и запустить локально, но для 235B-версии нужен сервер с минимум 80 ГБ VRAM (это 2×A100 или 1×H100)
Ollama / vLLM: доступны квантизованные версии (квантизация — это сжатие модели с небольшой потерей качества, чтобы она влезла в меньше памяти). Версия на 22B активных параметров запускается на карте с 24 ГБ VRAM
Бесплатно: через чат на chat.qwen.ai — без лимитов, но с очередью в пиковые часы

🏆 Вердикт — кому стоит переходить

Если вы разработчик и нужна модель для кода — Qwen 3 Max стоит попробовать. Особенно если бюджет ограничен: за $2/1M токенов это лучшее предложение на рынке
Если работаете с русскоязычным контентом — пока оставайтесь на GPT-5 или Claude. Русский у Qwen терпимый, но не блестящий
Если хотите запустить локально — квантизованные версии Qwen 3 реально работают на потребительском железе, в отличие от закрытых GPT-5 и Claude

📋 Копируй и пробуй — мой тестовый промт

Вот промт, которым я тестировал модель на рефакторинге. Работает в любой модели, но Qwen 3 Max выдал на нём лучший результат:

[Роль]

Ты — senior Python-разработчик с 10-летним опытом, специализация — чистый код и паттерны проектирования.

[Задача]

Отрефакторить предоставленный Python-код: устранить дублирование, разбить на функции, добавить типизацию и обработку ошибок.

[Контекст]

Код: {{ВСТАВЬ СВОЙ КОД}}

Язык: Python 3.11+

Фреймворк: {{УКАЖИ ФРЕЙМВОРК, ЕСЛИ ЕСТЬ}}

[Формат ответа]

Список найденных проблем (кратко)
Отрефакторенный код целиком
Что изменилось и почему — по пунктам

[Ограничения]

Не меняй логику работы. Не добавляй новые зависимости. Не используй декораторы без необходимости.

[Самопроверка]

Убедись, что отрефакторенный код делает ровно то же самое, что и оригинал. Проверь, что все edge cases сохранены.

Скопируй промт, вставь свой код в {{ВСТАВЬ СВОЙ КОД}} и отправь в Qwen 3 Max (chat.qwen.ai) или любую другую модель.

🔍 Как это делалось раньше vs с Qwen 3 Max

До нейросети: открываешь Stack Overflow, ищешь паттерны рефакторинга, вручную переписываешь каждую функцию, запускаешь тесты, правишь ошибки — 2-3 часа на 400-строчный файл.

С Qwen 3 Max: вставляешь код + промт → через 15 секунд получаешь чистый, типизированный код с объяснением каждого изменения. Проверяешь, запускаешь тесты — 20 минут вместе с ревью.

—

📱 Больше промтов, экспериментов и смешных фейлов нейросетей —

в моём Телеграме: @skazhi_ai

Подписывайся на «Скажи AI» здесь, если хочешь видеть такое регулярно →