Китайский гигант Alibaba представил флагманскую языковую модель нового поколения Qwen-3-Max. Это первая китайская разработка, которая перешагнула планку в 1 триллион параметров и заняла третье место в международном рейтинге LMArena, обойдя базовую версию GPT-5 и приблизившись к лидерам отрасли. Обучение проходило на корпусе объёмом 36 трлн токенов. Архитектура построена по принципу Mixture of Experts — активируются только те блоки нейросети, которые необходимы для решения текущей задачи. Это позволило сократить нагрузку на оборудование и повысить производительность. Контекстное окно модели — до 1 млн токенов, что даёт возможность анализировать длинные документы, коды и массивные данные без потери структуры. Инженеры Alibaba задействовали целый ряд оптимизаций. Например, технология PAI-FlashMoE позволила увеличить пропускную способность обучения на 30%, а метод global-batch load balancing loss обеспечил устойчивость тренировки и предотвратил сбои. Технология ChunkFlow ускорила работу с
Alibaba выпустила Qwen-3-Max с триллионом параметров и вышла в топ-3 мирового рейтинга LMArena
26 сентября 202526 сен 2025
52
2 мин