Компания NVIDIA выпустила семейство открытых моделей Nemotron 3 в рамках полноценного стека для агентского ИИ. В комплект входят веса моделей, наборы данных и инструменты для обучения с подкреплением. Семейство моделей и целевые рабочие нагрузки Семейство Nemotron 3 предназначено для эффективных агентских приложений. Линейка состоит из моделей Nano, Super и Ultra, каждая из которых настроена под разные профили рабочих нагрузок. Nemotron 3 Nano — это гибридная языковая модель Mamba Transformer с примерно 31,6 миллиарда параметров. Только около 3,2 миллиарда параметров активны за один прямой проход, или 3,6 миллиарда, включая вложения. Такая разреженная активация позволяет модели сохранять высокую репрезентативную ёмкость при минимальных вычислениях. Nemotron 3 Super имеет около 100 миллиардов параметров с до 10 миллиардов активных на токен. Nemotron 3 Ultra масштабирует эту конструкцию примерно до 500 миллиардов параметров с до 50 миллиардов активных на токен. Super нацелен на высок
NVIDIA выпускает Nemotron 3: гибридный стек MoE на основе Mamba Transformer для агентского ИИ с длинным контекстом
20 декабря20 дек
2 мин