Qwen: архитектурная революция от Alibaba и новая эра «думающих» нейросетей

11 марта11 мар

4 мин

В мире современных технологий искусственного интеллекта доминирование западных моделей постепенно сменяется многополярностью. Мы продолжаем наш нейросетевой цикл рассказом об одном из самых ярких представителей этого движения, которым стало семейство моделей Qwen (также известное как Tongyi Qianwen), разработанное китайским технологическим гигантом Alibaba Group. К началу 2026 года Qwen превратилась из «догоняющего» проекта в одного из глобальных лидеров, диктующих стандарты в области открытых весов и мультимодальных вычислений. Путь Qwen начался в стенах Alibaba Cloud Intelligence и знаменитой академии DAMO (Academy for Discovery, Adventure, Momentum and Outlook). Официальный запуск первой версии состоялся в апреле 2023 года. На тот момент модель позиционировалась как ответ на ChatGPT, способный эффективно работать с китайским и английским языками. Развитие Qwen можно разделить на несколько ключевых этапов: Основным архитектором системы выступает подразделение Alibaba Cloud под общим

Оглавление

История создания и этапы развития
Разработчики и вычислительные мощности
Сильные и слабые стороны

История создания и этапы развития

Путь Qwen начался в стенах Alibaba Cloud Intelligence и знаменитой академии DAMO (Academy for Discovery, Adventure, Momentum and Outlook). Официальный запуск первой версии состоялся в апреле 2023 года. На тот момент модель позиционировалась как ответ на ChatGPT, способный эффективно работать с китайским и английским языками.

Развитие Qwen можно разделить на несколько ключевых этапов:

Qwen 1.0 (начало 2023): Формирование базы и обучение на массиве данных в 3 триллиона токенов.
Переход к Open Source (Qwen 1.5): Alibaba приняла стратегическое решение открыть веса средних и малых моделей (7B, 14B), что позволило проекту быстро обрасти сообществом разработчиков.
Эра специализации (Qwen 2.0 и 2.5): Появление линеек Coder и Math, которые показали феноменальные результаты в написании кода и решении сложных математических задач, сопоставимые с закрытыми моделями GPT-4 Turbo. Детальную хронологию обновлений можно отследить в официальном блоге проекта Qwen.
Мультимодальный прорыв (конец 2025 - начало 2026): Релиз серии Qwen 3.0 и 3.5, включающей флагманские модели Qwen3.5-Plus с контекстным окном в 1 миллион токенов и нативно мультимодальные решения вроде Qwen3-Omni, способные обрабатывать видео, аудио и текст одновременно.

Разработчики и вычислительные мощности

Основным архитектором системы выступает подразделение Alibaba Cloud под общим руководством генерального директора Эдди Ву и технического директора Чжоу Цзинжэня. В марте 2026 года структура управления была обновлена после ухода Лин Цзюньяна, возглавлявшего ИИ-направление, и создания специальной рабочей группы для ускорения разработки фундаментальных моделей.

Основные вычислительные мощности Qwen сосредоточены в гипермасштабируемых дата-центрах Alibaba Cloud в Чжанбэй и Уланчабе (Внутренняя Монголия). Эти центры используют комбинацию графических процессоров последнего поколения и собственных нейрочипов Alibaba -Hanguang. Глобальная инфраструктура Alibaba Cloud также включает узлы в Сингапуре и Европе, что обеспечивает низкую задержку для международных пользователей через платформу Model Studio.

Сильные и слабые стороны

Преимущества Qwen:

Математика и код: модели Qwen 2.5 и 3.5 Coder стабильно занимают верхние строчки в бенчмарках HumanEval и LiveCodeBench, часто опережая Llama и Claude в задачах генерации Python-скриптов.
Мультиязычность: поддержка более 200 языков и диалектов делает её одной из самых доступных моделей для глобального рынка.
Эффективность архитектуры: использование разреженных смесей экспертов (Sparse Mixture-of-Experts, MoE) позволяет моделям вроде Qwen3.5-Plus активировать лишь малую часть параметров (около 17 миллиардов из почти 400), сохраняя высокую скорость при низких затратах.
Открытость: доступность весов для локального развертывания через Hugging Face.

Недостатки:

Культурный уклон: несмотря на мультиязычность, в глубоких логических рассуждениях иногда прослеживается «галлюцинирование» китайских реалий или специфическое форматирование данных.
Цензурные ограничения: как и все модели, разработанные в КНР, Qwen имеет встроенные фильтры безопасности, соответствующие местному законодательству, что может ограничивать ответы на определенные политические или социальные темы.
Требовательность к VRAM: старшие версии (72B и выше) всё еще требуют значительных объемов видеопамяти для работы без квантования.

Сравнительный анализ с конкурентами

В 2026 году основная борьба разворачивается между Qwen, Llama 3.1/4 от Meta и серией DeepSeek.

По данным тестирования PricePerToken, модель Llama 3.1 8B зачастую выигрывает по стоимости вывода (инференса) и общей «интеллектуальности» в общих задачах. Однако в узкоспециализированных областях, таких как конкурентное программирование, Qwen 2.5 Coder 32B считается «золотым стандартом» для локального запуска, предлагая качество ответов уровня GPT-4o при гораздо меньших требованиях к «железу» по сравнению с Llama 70B.

По сравнению с закрытыми моделями OpenAI, Qwen выигрывает за счет возможности кастомизации под конкретные бизнес-задачи, хотя GPT-5 (на момент весны 2026 года) всё еще удерживает первенство в сложных междисциплинарных рассуждениях и планировании.

Будущее развитие и перспективы

Alibaba делает ставку на превращение нейросети в «суперагента». В начале 2026 года компания выделила около 431 миллиона долларов на масштабную кампанию по продвижению Qwen как персонального ассистента, способного управлять приложениями на смартфоне и ПК.

Перспективы развития включают:

Native Multimodality: полная интеграция зрения и звука в единую архитектуру, исключающая использование отдельных адаптеров.
Low-Latency Speech: развитие моделей синтеза речи (Qwen-TTS) со сверхнизкой задержкой для создания реалистичных ИИ-аватаров.
Agentic Workflows: улучшение способности нейросети самостоятельно использовать внешние инструменты и API для выполнения многошаговых задач.

В долгосрочной перспективе Qwen стремится стать фундаментом для экономики ИИ-агентов, предлагая баланс между мощностью облачных вычислений и доступностью локальных моделей. Учитывая агрессивные инвестиции и открытость к сообществу, это семейство моделей останется ключевым игроком на рынке как минимум до конца десятилетия.

Ссылки на статьи о других нейросетевых моделях найдете по ссылке

Подписывайтесь на канал в дзен и на наш telegram-канал!