14 подписчиков

NVIDIA выпускает Nemotron 3: гибридный стек MoE на основе Mamba Transformer для агентского ИИ с длинным контекстом

20 декабря20 дек

2 мин

Компания NVIDIA выпустила семейство открытых моделей Nemotron 3 в рамках полноценного стека для агентского ИИ. В комплект входят веса моделей, наборы данных и инструменты для обучения с подкреплением. Семейство моделей и целевые рабочие нагрузки Семейство Nemotron 3 предназначено для эффективных агентских приложений. Линейка состоит из моделей Nano, Super и Ultra, каждая из которых настроена под разные профили рабочих нагрузок. Nemotron 3 Nano — это гибридная языковая модель Mamba Transformer с примерно 31,6 миллиарда параметров. Только около 3,2 миллиарда параметров активны за один прямой проход, или 3,6 миллиарда, включая вложения. Такая разреженная активация позволяет модели сохранять высокую репрезентативную ёмкость при минимальных вычислениях. Nemotron 3 Super имеет около 100 миллиардов параметров с до 10 миллиардов активных на токен. Nemotron 3 Ultra масштабирует эту конструкцию примерно до 500 миллиардов параметров с до 50 миллиардов активных на токен. Super нацелен на высок

Семейство моделей и целевые рабочие нагрузки

Семейство Nemotron 3 предназначено для эффективных агентских приложений. Линейка состоит из моделей Nano, Super и Ultra, каждая из которых настроена под разные профили рабочих нагрузок.

Nemotron 3 Nano — это гибридная языковая модель Mamba Transformer с примерно 31,6 миллиарда параметров. Только около 3,2 миллиарда параметров активны за один прямой проход, или 3,6 миллиарда, включая вложения. Такая разреженная активация позволяет модели сохранять высокую репрезентативную ёмкость при минимальных вычислениях.

Nemotron 3 Super имеет около 100 миллиардов параметров с до 10 миллиардов активных на токен.

Nemotron 3 Ultra масштабирует эту конструкцию примерно до 500 миллиардов параметров с до 50 миллиардов активных на токен.

Super нацелен на высокоточное рассуждение для крупных мультиагентных приложений, а Ultra предназначен для сложных исследовательских и планировочных рабочих процессов.

Nemotron 3 Nano доступен уже сейчас с открытыми весами и рецептами на Hugging Face и в виде микросервиса NVIDIA NIM. Модели Super и Ultra запланированы к выпуску в первой половине 2026 года.

NVIDIA Nemotron 3 Nano обеспечивает примерно в 4 раза более высокую пропускную способность токенов по сравнению с Nemotron 2 Nano и значительно сокращает использование токенов для рассуждений, поддерживая собственную длину контекста до 1 миллиона токенов.

Архитектура гибридного Mamba Transformer MoE

Основная конструкция Nemotron 3 — это гибридная архитектура Mixture of Experts Mamba Transformer. Модели сочетают последовательные блоки Mamba, блоки внимания и разреженные экспертные блоки внутри одного стека.

Для Nemotron 3 Nano исследовательская группа описывает шаблон, который перемежает блоки Mamba 2, блоки внимания и блоки MoE. Стандартные полносвязные слои из более ранних поколений Nemotron заменены слоями MoE.

Ключевые выводы

Nemotron 3 — это трёхъярусное семейство открытых моделей для агентского ИИ: Nano, Super и Ultra.

Модели Nemotron 3 используют гибридную архитектуру Mamba 2 и Transformer со sparse Mixture of Experts и поддерживают окно контекста в 1 миллион токенов.

Варианты Super и Ultra добавляют LatentMoE, где вычисления экспертов происходят в уменьшенном скрытом пространстве, что снижает стоимость связи и позволяет использовать больше экспертов, а также многомаркерные предсказания, которые генерируют несколько будущих токенов за один прямой проход.

Nemotron 3 предварительно обучен на данных в масштабе 25 триллионов токенов, с более чем 3 триллионами новых уникальных токенов по сравнению с поколением Nemotron 2. Модели Super и Ultra обучаются в основном в NVFP4, 4-битном формате с плавающей запятой для графических процессоров NVIDIA.

Ознакомьтесь с документом, техническим блогом и весами моделей на HF. Не стесняйтесь ...