80 подписчиков

Китайцы снова удивили: новая модель Qwen3-Next обходит западных конкурентов при вдвое меньших затратах

14 сентября 202514 сен 2025

5 мин

Пока все обсуждают DeepSeek, команда Alibaba тихо выпустила что-то невероятное. Представьте: модель ИИ, которая работает быстрее GPT-5, но использует в разы меньше ресурсов. Звучит как фантастика? А вот и нет! Исследователи из команды Qwen в Alibaba на этой неделе представили Qwen3-Next — пару новых языковых моделей, которые буквально переворачивают представление о том, как должен работать ИИ. И знаете что самое крутое? Они полностью открытые и бесплатные для коммерческого использования! В релиз вошли два варианта — Instruct и Thinking. Обе модели доступны под лицензией Apache 2.0, что означает: берите, модифицируйте, используйте как хотите. Можно скачать с Hugging Face или попробовать прямо в Qwen Chat (их ответ на ChatGPT). А теперь самое интересное — как это вообще работает. Разработчики впервые отошли от классической архитектуры Qwen3 и создали гибридную систему, которая объединяет Gated DeltaNet с Gated Attention. Звучит сложно? Давайте разберем простыми словами. Первая технология

Оглавление

Qwen3-Next: гибрид, который меняет правила игры
Революционная архитектура: быстрый читатель плюс внимательный проверяющий
Невероятная эффективность: 3 миллиарда из 80

Qwen3-Next: гибрид, который меняет правила игры

Исследователи из команды Qwen в Alibaba на этой неделе представили Qwen3-Next — пару новых языковых моделей, которые буквально переворачивают представление о том, как должен работать ИИ. И знаете что самое крутое? Они полностью открытые и бесплатные для коммерческого использования!

В релиз вошли два варианта — Instruct и Thinking. Обе модели доступны под лицензией Apache 2.0, что означает: берите, модифицируйте, используйте как хотите. Можно скачать с Hugging Face или попробовать прямо в Qwen Chat (их ответ на ChatGPT).

Революционная архитектура: быстрый читатель плюс внимательный проверяющий

А теперь самое интересное — как это вообще работает. Разработчики впервые отошли от классической архитектуры Qwen3 и создали гибридную систему, которая объединяет Gated DeltaNet с Gated Attention. Звучит сложно? Давайте разберем простыми словами.

Первая технология работает как «быстрый читатель». Вместо того чтобы перечитывать весь текст слово за словом, она постепенно обновляет понимание по мере поступления новой информации. Это делает обработку длинных текстов намного эффективнее. В Qwen3-Next около трех четвертей всех слоев модели используют именно этот быстрый способ обработки.

Вторая технология — Gated Attention — играет роль «внимательного проверяющего». Она использует более традиционный подход, детально анализируя связи между словами. Исследователи добавили специальный «фильтр», который помогает отсеивать шум и делает процесс более стабильным, особенно для сложных задач рассуждения.

Гениальность решения в том, что эти подходы дополняют друг друга. Если бы использовали только быстрый метод — могли бы упустить важные детали. Только внимательный — модель работала бы слишком медленно на длинных документах. А вместе получается и скорость, и точность.

Невероятная эффективность: 3 миллиарда из 80

Но это еще не все! Qwen3-Next использует принцип разреженности (sparsity) — для обработки каждого токена активируется только 3 миллиарда параметров из общих 80 миллиардов. Представьте себе огромную библиотеку, где для ответа на вопрос вам нужно открыть только несколько нужных книг, а не перелистывать все подряд.

Такой подход кардинально снижает энергопотребление и вычислительные требования. А значит — и стоимость использования. По данным разработчиков, цена на 25% ниже предыдущей модели Qwen3-235B.

Исследователь команды Qwen Цзюньян Линь поделился в Twitter: «Мы экспериментировали с гибридными моделями и линейным вниманием около года. Было много проб и ошибок, но оказалось, что внимательный фильтр — это практически бесплатный способ получить преимущества».

Технические возможности, которые впечатляют

Контекст как у топовых моделей

Модель изначально поддерживает контекстное окно в 256 000 токенов — это как роман на 600-800 страниц, который можно обработать за один раз. А с использованием методов масштабирования RoPE контекст расширяется до 1 миллиона токенов. Представляете масштаб?

512 экспертов вместо 128

В Qwen3-Next используется ультраразреженная MoE-структура (Mixture-of-Experts) с 512 экспертами против 128 в предыдущей версии. Система активирует 10 маршрутизируемых экспертов плюс одного общего, что обеспечивает баланс между вычислительной эффективностью и производительностью.

Для стабильности обучения команда внесла несколько важных изменений: заменила QK-Norm на Zero-Centered RMSNorm, применила weight decay к весам нормализации, нормализовала MoE-маршрутизаторы при инициализации. Все это помогает модели учиться более надежно как в небольших экспериментах, так и при полномасштабном обучении.

Результаты, которые говорят сами за себя

Цифры просто поражают! Базовая модель Qwen3-Next-80B-A3B активирует лишь малую часть параметров во время работы, но превосходит Qwen3-32B по большинству тестов. А обучалась она на «всего лишь» 15 триллионах токенов (против 36 триллионов у Qwen3) и потребовала менее 10% вычислительных ресурсов по сравнению с Qwen3-32B.

По скорости работы — вообще фантастика. При длине контекста от 32 000 токенов пропускная способность более чем в 10 раз выше, чем у Qwen3-32B. И это как на этапе обработки входных данных, так и при генерации ответов.

Независимые тесты подтверждают успех

По данным независимой компании Artificial Analysis, reasoning-версия Qwen3-Next набирает 54 балла в Intelligence Index, что ставит ее в один ряд с DeepSeek V3.1 (Reasoning). Но при этом использует гораздо меньше активных параметров! Обычная версия показывает 45 баллов, что сопоставимо с gpt-oss-20B и Llama Nemotron Super 49B v1.5.

Особенно радует доступность: модель в FP8-точности помещается на одну видеокарту Nvidia H200. Это означает, что использовать ее могут не только гиганты с огромными вычислительными кластерами, но и обычные компании или исследовательские лаборатории.

Практическое использование

Обе версии — Qwen3-Next-80B-A3B-Instruct и Qwen3-Next-80B-A3B-Thinking — выпущены под лицензией Apache 2.0. Это дает широкие права на модификацию и коммерческое использование. Модели интегрированы в Hugging Face Transformers и поддерживаются фреймворками SGLang и vLLM, которые предоставляют API-эндпоинты, совместимые с OpenAI.

Команда также подчеркивает интеграцию с Qwen-Agent, что упрощает использование инструментов в приложениях. Правда, пока модели работают только с текстом — мультимодальных возможностей нет.

Ценовое преимущество

В Alibaba Cloud стоимость составляет $0.5/$6 за миллион входных/выходных токенов для reasoning-варианта и $0.5/$2 для обычного. Это как минимум на 25% дешевле Qwen3-235B. Получается не просто более эффективная модель для обучения и работы, но и более доступная для массового развертывания.

Что дальше?

Qwen3-Next — это серьезный поворот к архитектурам, созданным одновременно для эффективности и масштабируемости. Уменьшив количество активных параметров и оптимизировав работу с длинными контекстами, команда Qwen делает практический шаг вперед для разработчиков.

И это еще не конец — уже планируется работа над Qwen3.5, целью которой станет достижение еще более высоких уровней производительности на базе этой архитектуры.

Честно говоря, впечатляет как китайские команды продолжают выпускать открытые решения, которые не уступают (а иногда и превосходят) закрытые западные аналоги. И делают это с меньшими затратами ресурсов. Может быть, будущее ИИ действительно будет более открытым и доступным?

Следите за развитием китайских ИИ-стартапов и новыми прорывами в области эффективных языковых моделей!🔔 Чтобы узнать больше о последних разработках в сфере ИИ и не пропустить важные новости, подписывайтесь на мой канал «ProAI» в Telegram!