Найти в Дзене
Машинное обучение

⚡️ Alibaba выпустила семейство Qwen 3.5 Medium

Команда Qwen опубликовала серию моделей Qwen 3.5 Medium, в которую вошли: 🟠Qwen3.5-Flash 🟢Qwen3.5-35B-A3B 🟢Qwen3.5-122B-A10B 🟢Qwen3.5-27B. Сюрприз серии - Qwen3.5-35B-A3B. По бенчмаркам она превосходит Qwen3-235B-A22B-2507, у которого активных параметров было 22B то есть разница в эффективности больше чем в 7 раз. Qwen3.5-Flash - это продакшен-версия 35B-A3B, заточенная под агентные сценарии. Из коробки доступны контекстное окно в 1 млн. токенов и нативная поддержка fвызова функций. Миллионный контекст снимает необходимость строить RAG при работе с большими кодовыми базами или объемными документами, модель удерживает все в контексте. Старшие модели Qwen3.5-122B-A10B и Qwen3.5-27B ориентированы на сложные многошаговые задачи: планирование, цепочки рассуждений, долгосрочное выполнение инструкций. Для них применялся четырехэтапный пайплайн дообучения с холодным стартом через длинный СoT и RL на основе hbpjybyu-сигналов. 122B-A10B при 10B активных параметров по логической связно

⚡️ Alibaba выпустила семейство Qwen 3.5 Medium.

Команда Qwen опубликовала серию моделей Qwen 3.5 Medium, в которую вошли:

🟠Qwen3.5-Flash

🟢Qwen3.5-35B-A3B

🟢Qwen3.5-122B-A10B

🟢Qwen3.5-27B.

Сюрприз серии - Qwen3.5-35B-A3B. По бенчмаркам она превосходит Qwen3-235B-A22B-2507, у которого активных параметров было 22B то есть разница в эффективности больше чем в 7 раз.

Qwen3.5-Flash - это продакшен-версия 35B-A3B, заточенная под агентные сценарии. Из коробки доступны контекстное окно в 1 млн. токенов и нативная поддержка fвызова функций.

Миллионный контекст снимает необходимость строить RAG при работе с большими кодовыми базами или объемными документами, модель удерживает все в контексте.

Старшие модели Qwen3.5-122B-A10B и Qwen3.5-27B ориентированы на сложные многошаговые задачи: планирование, цепочки рассуждений, долгосрочное выполнение инструкций.

Для них применялся четырехэтапный пайплайн дообучения с холодным стартом через длинный СoT и RL на основе hbpjybyu-сигналов.

122B-A10B при 10B активных параметров по логической связности конкурирует с заметно более тяжелыми dense-моделями.

Веса доступны на Hugging Face, Flash - только через Model Studio от Alibaba Cloud по цене примерно 10 центов за млн. входных и 40 центов за млн. выходных токенов

📌Лицензирование: Apache 2.0 License.

🟡Набор моделей

@machinelearning

#AI #ML #LLM #Qwen #Alibiba