NVIDIA, которую привыкли воспринимать прежде всего как производителя GPU, сделала заметный шаг в сторону «полноценного AI-вендора»: компания представила семейство открытых моделей Nemotron 3, а вместе с ними — данные, рецепты обучения и инструменты, заточенные под агентные сценарии. На практике это попытка закрепиться не только в железе, но и в слое моделей и экосистемы, пока крупные игроки все активнее экспериментируют с собственными чипами и закрытыми стеками.
Что анонсировали
Nemotron 3 — это линейка «open models» в трех размерах: Nano, Super и Ultra. По заявлению NVIDIA, Nano — модель на 30 млрд параметров, но в вычислениях одновременно активируется до 3 млрд, что делает ее заметно дешевле в инференсе по сравнению с «плотными» моделями такого же номинального размера. Super (около 100 млрд) и Ultra (около 500 млрд) ожидаются в первой половине 2026 года, то есть сейчас речь в основном про запуск Nano и про дорожную карту семейства.
Почему это не просто «еще одна LLM»
Главный тезис релиза — ставка на агентные системы, где не один чат-бот отвечает на вопросы, а несколько специализированных «агентов» совместно планируют, ищут данные, вызывают инструменты и проверяют результаты. NVIDIA прямо описывает типичный «зоопарк» ролей: retriever, planner, tool executor, verifier, и под такие связки нужны модели с хорошей пропускной способностью, устойчивым поведением на длинных цепочках действий и предсказуемой стоимостью на токен. Именно поэтому акцент в Nemotron 3 — на эффективности в инференсе и на сценариях «много агентов одновременно», а не только на абстрактных лидербордах.
Что внутри: архитектура и обучение человеческим языком
Nemotron 3 использует гибридный бэкенд Mamba-Transformer в связке с Mixture-of-Experts (MoE). Идея MoE в том, что на каждый токен «включается» не весь гигантский мозг модели, а лишь часть «экспертов», поэтому итоговая модель может быть большой по общему числу параметров, но относительно дешевой в реальном использовании. Для Super и Ultra заявлены дополнительные оптимизации: latent MoE (больше экспертов при той же цене инференса), multi-token prediction (ускорение генерации за счет предсказания нескольких токенов) и обучение в 4-битном формате NVFP4 на архитектуре Blackwell, чтобы снизить стоимость обучения и требования к памяти.
Отдельная линия — посттренинг через reinforcement learning в нескольких интерактивных средах (multi-environment RL) с помощью NeMo Gym, чтобы модель лучше работала не в «одном ответе», а в многошаговых цепочках действий (планирование, tool use, код, проверяемые задания). RL в нескольких средах — это «натаскивание» не на статичных вопросах-ответах, а на симуляциях задач, где важна последовательность правильных действий и проверяемый результат (например, корректный вызов инструмента или рабочий код).
«Открытость» как стратегия, а не благотворительность
WIRED отмечает, что NVIDIA делает ставку на open-source AI, и это выглядит как рациональный ход: крупные AI-компании становятся все более закрытыми и параллельно разрабатывают собственные чипы, а значит, долгосрочно могут снизить зависимость от GPU NVIDIA. На этом фоне выпуск сильных открытых моделей, которые можно скачать, модифицировать и запускать на своем железе, — способ удерживать разработчиков в своей экосистеме и создавать спрос на инфраструктуру NVIDIA уже на уровне моделей, а не только на уровне «железа». Дополнительный аргумент — прозрачность: NVIDIA подчеркивает, что раскрывает больше деталей о данных и пайплайне обучения, чтобы инженерам было проще адаптировать модель и доверять ей в прикладных сценариях.
От редакции
Релиз Nemotron 3 хорошо подсвечивает тренд 2025–2026: рынок уходит от «одной большой LLM на все случаи» к системам из множества специализированных агентов, где решают не только качество ответов, но и цена ошибок, устойчивость на длинных цепочках и стоимость инференса. Вторая важная линия — «open как инфраструктура»: открытые веса + открытые датасеты + открытые рецепты и окружения для RL превращаются в конкурентное преимущество, потому что позволяют компаниям быстро собирать свои вертикальные решения и держать данные внутри периметра.
Как использовать это на практике:
- Если делаете B2B-продукт с ИИ, смотрите на Nemotron 3 не как на «чат-бота», а как на основу для связки агентов (планировщик, исполнитель, проверяющий) и заранее проектируйте метрики надежности и стоимость на задачу, а не «красоту диалогов».
- Если важны приватность и контроль, полезнее всего именно открытая модель, которую можно развернуть у себя, а затем дообучить под собственные сценарии и правила (в том числе через RL-окружения, если они подходят).
- Если вы стартап или команда внутри корпорации, то сейчас окно возможностей в том, чтобы не соревноваться «в общем интеллекте», а быстро собрать специализированного агента под конкретный процесс: саппорт, комплаенс, аудит, работу с кодовой базой, аналитику по документам, и оптимизировать стоимость инференса за счет архитектурных фишек вроде MoE и более эффективных пайплайнов.
Подписывайся, чтобы не пропускать ключевые события отрасли!