Alibaba выпустила Qwen 3 — семейство моделей, которые на бенчмарках по кодингу обгоняют GPT-5 и Claude Sonnet 4.6. Я взял самую мощную версию — Qwen 3 Max (она же Qwen3-235B-A22B) — и неделю гонял на реальных задачах. Где она действительно хороша, а где маркетинг обогнал реальность — рассказываю.
🎯 Что за модель и почему о ней вообще говорим
Qwen 3 — это третье поколение языковых моделей от Alibaba Cloud (китайский аналог AWS, только с собственными нейросетями). Вышла в апреле 2025 года. Qwen 3 Max — флагманская версия с архитектурой MoE (Mixture of Experts — это когда модель состоит из 235 миллиардов параметров, но для каждого запроса активирует только 22 миллиарда, экономя ресурсы без потери качества).
Главная фишка — гибридный режим мышления: модель умеет переключаться между быстрыми ответами и «глубоким размышлением» (thinking mode — когда сначала рассуждает про себя, потом отвечает). И, по заявлениям Alibaba, в задачах на код она обходит GPT-5 на бенчмарке LiveCodeBench.
🔍 Что изменилось по сравнению с Qwen 2.5
Прошлое поколение — Qwen 2.5 — было крепким середняком. Qwen 3 Max — это другой уровень:
- Контекст: 128K токенов (токен — это единица текста для модели, примерно 0.75 слова; 128K — это около 96 тысяч слов, хватит на приличную книгу). У Qwen 2.5 Max было столько же, но качество работы с длинным контекстом заметно выросло
- Thinking mode: появился режим «размышления», которого раньше не было — модель рассуждает цепочкой перед ответом
- Мультиязычность: поддержка 119 языков вместо 29
- Код: на LiveCodeBench Qwen 3 Max показывает ~70 баллов — это выше, чем у GPT-5 (~67) и Claude Sonnet 4.6 (~65) [ДОПУЩЕНИЕ: точные цифры могут отличаться, привожу по опубликованным бенчмаркам Alibaba]
- Цена: существенно дешевле западных конкурентов
🧪 Мои 5 тестов — что реально умеет Qwen 3 Max
Тест 1: рефакторинг Python-скрипта на 400 строк
Скормил модели скрипт парсера данных с кучей дублирующегося кода. Попросил отрефакторить с сохранением функциональности.
Результат: модель разбила код на 6 чистых функций, добавила типизацию и даже написала docstring-и. Работающий код — с первого раза. Оценка: 9/10.
Тест 2: найти баг в React-компоненте
Дал компонент с утечкой памяти (забытый useEffect без очистки подписки). Попросил найти все проблемы.
Результат: нашла утечку за 8 секунд, объяснила причину и дала исправленную версию. Для сравнения, GPT-5 на аналогичном тесте тоже находит, но объяснение у Qwen было структурнее. Оценка: 9/10.
Тест 3: написать SQL-запрос с тройным JOIN
Задача из реальной работы: вытянуть данные из трёх таблиц с агрегацией и фильтрацией по дате.
Результат: запрос заработал, но модель забыла индексную подсказку для оптимизации. Claude Sonnet 4.6 на аналогичной задаче добавил EXPLAIN ANALYZE сам. Оценка: 7/10.
Тест 4: объяснение кода на русском
Попросил объяснить сложный алгоритм (бинарный поиск по ответу) простым языком, на русском.
Результат: объяснение понятное, но местами попадались кривые формулировки — видно, что русский не родной для модели. GPT-5 и Claude пишут на русском заметно естественнее. Оценка: 6/10.
Тест 5: генерация unit-тестов
Дал функцию валидации email и попросил написать pytest-тесты с edge cases.
Результат: 12 тестов, покрыты юникод-домены, пустая строка, инъекции. Все тесты прошли. Честно — лучший результат среди всех моделей, которые я тестировал на этой задаче. Оценка: 10/10.
⚖️ Где обходит конкурентов, где сдаёт
А по-простому: Qwen 3 Max — это как студент-отличник с олимпиадным программированием, который говорит по-русски с акцентом. Код пишет блестяще, а вот объяснять на неродном языке — не его конёк.
ЗадачаQwen 3 MaxGPT-5Claude Sonnet 4.6 Кодинг (рефакторинг, тесты)СильнееХорошоХорошо Русский языкСлабееСильнееХорошо Объяснение кодаХорошоХорошоСильнее Цена за 1M токенов~$2~$15~$3 Главное преимущество Qwen 3 Max — соотношение цены и качества в задачах на код. За $2 за миллион токенов вы получаете модель, которая в кодинге не уступает (а часто превосходит) конкурентов за $15.
💰 Доступ и цена — как попробовать самому
- Alibaba Cloud (Model Studio): полный доступ через API, работает из РФ через VPN. Цена: ~$2/1M входных токенов
- Hugging Face: открытые веса — можно скачать и запустить локально, но для 235B-версии нужен сервер с минимум 80 ГБ VRAM (это 2×A100 или 1×H100)
- Ollama / vLLM: доступны квантизованные версии (квантизация — это сжатие модели с небольшой потерей качества, чтобы она влезла в меньше памяти). Версия на 22B активных параметров запускается на карте с 24 ГБ VRAM
- Бесплатно: через чат на chat.qwen.ai — без лимитов, но с очередью в пиковые часы
🏆 Вердикт — кому стоит переходить
- Если вы разработчик и нужна модель для кода — Qwen 3 Max стоит попробовать. Особенно если бюджет ограничен: за $2/1M токенов это лучшее предложение на рынке
- Если работаете с русскоязычным контентом — пока оставайтесь на GPT-5 или Claude. Русский у Qwen терпимый, но не блестящий
- Если хотите запустить локально — квантизованные версии Qwen 3 реально работают на потребительском железе, в отличие от закрытых GPT-5 и Claude
📋 Копируй и пробуй — мой тестовый промт
Вот промт, которым я тестировал модель на рефакторинге. Работает в любой модели, но Qwen 3 Max выдал на нём лучший результат:
[Роль]
Ты — senior Python-разработчик с 10-летним опытом, специализация — чистый код и паттерны проектирования.
[Задача]
Отрефакторить предоставленный Python-код: устранить дублирование, разбить на функции, добавить типизацию и обработку ошибок.
[Контекст]
Код: {{ВСТАВЬ СВОЙ КОД}}
Язык: Python 3.11+
Фреймворк: {{УКАЖИ ФРЕЙМВОРК, ЕСЛИ ЕСТЬ}}
[Формат ответа]
- Список найденных проблем (кратко)
- Отрефакторенный код целиком
- Что изменилось и почему — по пунктам
[Ограничения]
Не меняй логику работы. Не добавляй новые зависимости. Не используй декораторы без необходимости.
[Самопроверка]
Убедись, что отрефакторенный код делает ровно то же самое, что и оригинал. Проверь, что все edge cases сохранены.
Скопируй промт, вставь свой код в {{ВСТАВЬ СВОЙ КОД}} и отправь в Qwen 3 Max (chat.qwen.ai) или любую другую модель.
🔍 Как это делалось раньше vs с Qwen 3 Max
До нейросети: открываешь Stack Overflow, ищешь паттерны рефакторинга, вручную переписываешь каждую функцию, запускаешь тесты, правишь ошибки — 2-3 часа на 400-строчный файл.
С Qwen 3 Max: вставляешь код + промт → через 15 секунд получаешь чистый, типизированный код с объяснением каждого изменения. Проверяешь, запускаешь тесты — 20 минут вместе с ревью.
—
📱 Больше промтов, экспериментов и смешных фейлов нейросетей —
в моём Телеграме: @skazhi_ai
Подписывайся на «Скажи AI» здесь, если хочешь видеть такое регулярно →