Китайский технологический гигант Alibaba представил новую крупную языковую модель Qwen3-Max, что знаменует значительное развитие в сфере искусственного интеллекта. Модель демонстрирует серьезные технические улучшения и содержит более триллиона параметров при обучении на 36 триллионах токенов. Qwen3-Max использует архитектуру "Смесь экспертов" (MoE). Этот подход активирует только необходимые части сети для каждой конкретной задачи, что повышает эффективность работы. Инженеры компании применили метод глобальной пакетной балансировки потерь, который обеспечил стабильность обучения без резких скачков и необходимости перезапусков. В техническом плане разработчики достигли значительного прогресса в скорости обучения. Их система PAI-FlashMoE увеличила этот показатель на 30% по сравнению с предыдущей версией Qwen2.5-Max-Base. Для работы с длинными текстами реализовали стратегию ChunkFlow, которая в три раза эффективнее стандартных методов при обработке контекста до 1 миллиона токенов. Надёжнос
Alibaba представила языковую модель Qwen3-Max с триллионом параметров
25 сентября 202525 сен 2025
1
2 мин