Найти в Дзене
🟢 NVIDIA выпустила Nemotron 3 Ultra
NVIDIA открыла Nemotron 3 Ultra — большую reasoning-модель для долгих агентских задач. У неё 550 млрд параметров всего и 55 млрд активных за проход. Модель рассчитана на кодинг, глубокий анализ, работу с инструментами, длинные цепочки действий и большие кодовые базы. Контекст — до 1 млн токенов. Архитектура гибридная: Mamba-2, Attention, LatentMoE и MTP. NVIDIA заявляет до 5 раз...
1 день назад
Gemma 4 12B вышла для локального запуска
💻 Google представила Gemma 4 12B — открытую мультимодальную модель для ноутбуков. Она работает с текстом, изображениями и аудио, а веса выпущены под лицензией Apache 2.0. Главное отличие — единая архитектура без отдельных мультимодальных энкодеров. Визуальные и аудиовходы передаются ближе к основной языковой модели, что снижает задержку и расход памяти. Google заявляет, что Gemma 4 12B приближается к 26B MoE по бенчмаркам, но требует меньше памяти...
1 день назад
MiniMax M3 вышла на OpenRouter
MiniMax запустила новую модель MiniMax M3 на OpenRouter. Это open-weight модель с упором на кодинг, агентные задачи и мультимодальность. Заявлено главное: — контекст до 1M токенов — нативная мультимодальность: изображения и видео на вход — сильная ориентация на coding и tool use — новая архитектура MiniMax Sparse Attention — модель на OpenRouter: minimax/minimax-m3 По бенчмаркам MiniMax заявляет: — 59.0% SWE-Bench Pro — 66...
4 дня назад
🔥 Kwai выпустила Keye-VL-2.0-30B-A3B
Kwai-Keye открыла веса Keye-VL-2.0-30B-A3B на Hugging Face и ModelScope. Это мультимодальная модель на 31 млрд параметров для работы с изображениями, видео, кодом, инструментами и агентными задачами. Главный упор сделали на длинные видео. В модели используется DSA — DeepSeek Sparse Attention, за счёт чего заявлен контекст до 256K и более дешёвая обработка длинных последовательностей. По тестам Kwai, Keye-VL-2.0-30B-A3B набрала 74...
5 дней назад
Step 3.7 Flash бесплатно на 30 дней
🔓 Nous Research открыла доступ к StepFun Step 3.7 Flash через Nous Portal на 30 дней. Модель рассчитана на агентные задачи: кодинг, поиск, работу с изображениями и многошаговые сценарии. Step 3.7 Flash — MoE-модель на 198B параметров с 11B активных параметров. Она поддерживает контекст до 256K и три уровня рассуждения. Главный смысл акции — дать пользователям Hermes Agent временный бесплатный доступ к модели для проверки в реальных рабочих задачах...
5 дней назад
Если нравится — подпишитесь
Так вы не пропустите новые публикации этого канала