143 тыс подписчиков

Alibaba представила языковую модель Qwen3-Max с триллионом параметров

25 сентября 202525 сен 2025

2 мин

Китайский технологический гигант Alibaba представил новую крупную языковую модель Qwen3-Max, что знаменует значительное развитие в сфере искусственного интеллекта. Модель демонстрирует серьезные технические улучшения и содержит более триллиона параметров при обучении на 36 триллионах токенов. Qwen3-Max использует архитектуру "Смесь экспертов" (MoE). Этот подход активирует только необходимые части сети для каждой конкретной задачи, что повышает эффективность работы. Инженеры компании применили метод глобальной пакетной балансировки потерь, который обеспечил стабильность обучения без резких скачков и необходимости перезапусков. В техническом плане разработчики достигли значительного прогресса в скорости обучения. Их система PAI-FlashMoE увеличила этот показатель на 30% по сравнению с предыдущей версией Qwen2.5-Max-Base. Для работы с длинными текстами реализовали стратегию ChunkFlow, которая в три раза эффективнее стандартных методов при обработке контекста до 1 миллиона токенов. Надёжнос

Qwen3-Max использует архитектуру "Смесь экспертов" (MoE). Этот подход активирует только необходимые части сети для каждой конкретной задачи, что повышает эффективность работы. Инженеры компании применили метод глобальной пакетной балансировки потерь, который обеспечил стабильность обучения без резких скачков и необходимости перезапусков.

В техническом плане разработчики достигли значительного прогресса в скорости обучения. Их система PAI-FlashMoE увеличила этот показатель на 30% по сравнению с предыдущей версией Qwen2.5-Max-Base. Для работы с длинными текстами реализовали стратегию ChunkFlow, которая в три раза эффективнее стандартных методов при обработке контекста до 1 миллиона токенов. Надёжность системы повысили механизмы SanityCheck и EasyCheckpoint, сократившие простои оборудования в пять раз.

Тестирование показывает конкурентные результаты модели. На платформе LMArena Qwen3-Max заняла третье место в общем рейтинге, опередив GPT-5-Chat. В решении практических программистских задач на SWE-Bench Verified модель набрала 69,6 балла, превзойдя DeepSeek V3.1. Способность использовать внешние инструменты оценили в 74,8 балла на Tau2-Bench — это выше показателей Claude Opus 4.

Особый интерес представляет разрабатываемая версия Qwen3-Max-Thinking, ориентированная на сложные логические задачи. В предварительных испытаниях она показала стопроцентный результат на математических тестах AIME 25 и HMMT.

Текущая версия Qwen3-Max-Instruct уже доступна в мобильном приложении Qwen и через веб-сайт. Разработчики могут интегрировать модель через API Alibaba Cloud Model Studio. Модель демонстрирует улучшения в выполнении инструкций, математических рассуждениях и научных задачах, с меньшим количеством ошибок по сравнению с предыдущими версиями.

Релиз Qwen3-Max укрепляет позиции Alibaba в соревновании с ведущими разработчиками искусственного интеллекта. Технические решения компании в области обработки длинных контекстов и эффективности обучения показывают самостоятельный подход к созданию сложных ИИ-систем.

📃 Читайте далее на сайте

Новый американский ЦОД по производительности в 10 раз обгоняет самый мощный в мире суперкомпьютер

Профессор Оксфорда в ходе эксперимента доверил ИИ-модели разработать образовательный курс

ИИ успешно заменил тренера-человека в бейсбольной команде Oakland Ballers

Сбер поручил общение с должниками роботизированным операторам на основе ИИ

Google анонсировала интеграцию ИИ Gemini в браузер Chrome в США

Всё об автомобилях

4,84 млн интересуются