NVIDIA и Mistral AI представили языковую модель Mistral-NeMo-Minitron 8B (8 миллиардов параметров) — «уменьшенную версию» новой высокоточной модели Mistral NeMo 12B, сообщает TweakTown. NVIDIA называет новую модель «одной из самых совершенных открытых моделей в своём размерном классе».
Модель получилась достаточно «лёгкой», чтобы работать в режиме реального времени на широком спектре оборудования, начиная от персональных компьютеров с актуальными достаточно производительными видеокартами NVIDIA RTX и заканчивая облачными серверами.
Источник изображения: Vishal Bansal, Unsplash
NVIDIA сравнивает новый вариант модели с парой конкурентов, включая Gemma 7B от Google — Mistral-NeMo-Minitron 8B показывает лучшую точность как минимум в девяти популярных тестах для языковых моделей искусственного интеллекта (ИИ).
«Мы объединили два различных метода оптимизации ИИ — обрезку (pruning) для сокращения 12 миллиардов параметров Mistral NeMo до 8 миллиардов и дистилляцию (distillation) для повышения точности», — сказал Брайан Катанзаро (Bryan Catanzaro), вице-президент по прикладным исследованиям в области глубокого обучения в NVIDIA. «Благодаря этому Mistral-NeMo-Minitron 8B обеспечивает точность, сравнимую с оригинальной моделью, при меньшей вычислительной нагрузке».
Веса модели доступны в репозитории NVIDIA на платформе Hugging Face. Дополнительную информацию о Mistral-NeMo-Minitron 8B можно найти в техническом блоге NVIDIA.
NVIDIA также напомнила, что у неё есть ещё «меньшая» модель под названием Nemotron-Mini-4B-Instruct, оптимизированная для работы с небольшим объёмом памяти и более быстрого отклика на компьютерах и ноутбуках с видеокартами NVIDIA GeForce RTX.
В рамках Gamescom 2024 компания объявила, что будущая игра Mecha BREAK станет первым проектом с технологиями NVIDIA ACE и Digital Human. В частности, модель Nemotron-Mini-4B-Instruct будет использоваться для «оживления» NPC — с ними можно будет общаться, не только письменно, но и устно. Языковая модель NVIDIA и средство лицевой анимации на базе ИИ будут запускаться локально на устройстве пользователя, средства распознавания и синтеза речи будут запускаться в облаке.