Компания NVIDIA представила Nemotron 3 Ultra (550B‑A55B) — открытую языковую модель с 550 миллиардами параметров, из которых 55 миллиардов активны одновременно. Модель ориентирована на работу в составе ИИ-агентов и рассчитана на сложные сценарии, где требуется удерживать длинный контекст и взаимодействовать с внешними инструментами. В основе Nemotron 3 Ultra лежит гибридная архитектура Mamba2 + Transformer с соотношением 4:1 в пользу Mamba. Это позволяет эффективно обрабатывать большие объёмы информации и поддерживать сложные многошаговые задачи. Дополнительно реализована LatentMoE-архитектура, что повышает гибкость и масштабируемость модели. Модель прошла предпросмотр на 20 триллионах токенов в формате NVFP4, а затем — двухэтапный MOPD post-training. В результате Nemotron 3 Ultra способна: В отличие от многих крупных моделей, Nemotron 3 Ultra полностью открыта: доступны базовая версия, варианты после дополнительного обучения, контрольные точки для оценки качества, NVFP4-квантованные в
Nemotron 3 Ultra (550B‑A55B): открытая модель NVIDIA для сложных ИИ-агентов
4 июня4 июн
23
1 мин