45,8 тыс подписчиков

NVIDIA выпустила Star Elastic — одну модель, которая заменяет три

2 дня назад2 дня назад

2 мин

NVIDIA представила технологию Star Elastic, которая из одного обученного чекпоинта позволяет получить сразу три модели разного размера — 30B, 23B и 12B параметров. Без дополнительного обучения каждой по отдельности. Это принципиально меняет подход к дистилляции и оптимизации инфраструктуры для AI-систем. Технология обеспечивает экономию в 360 раз по объёму данных по сравнению с обучением каждой модели с нуля. Вместо трёх отдельных файлов на 126.1 GB достаточно хранить один на 58.9 GB. При этом самая маленькая версия (12B) работает в 3.4 раза быстрее 30B-модели при сопоставимом качестве. Обычная обрезка модели напоминает вырезание куска из фотографии с надеждой, что всё важное останется. Star Elastic действует иначе: компоненты внутри одной модели выстроены по важности, как стройный рейтинг сотрудников. Когда нужна модель на 23 миллиарда параметров — берутся топовые компоненты. На 12 миллиардов — следующие по списку. Меньшие модели используют подмножество весов большей, что и обеспечива

Оглавление

Как NVIDIA научилась делать три модели из одной
Что это даёт на практике
Техническая реализация

Как NVIDIA научилась делать три модели из одной

Что это даёт на практике

Технология обеспечивает экономию в 360 раз по объёму данных по сравнению с обучением каждой модели с нуля. Вместо трёх отдельных файлов на 126.1 GB достаточно хранить один на 58.9 GB. При этом самая маленькая версия (12B) работает в 3.4 раза быстрее 30B-модели при сопоставимом качестве.

Техническая реализация

Обычная обрезка модели напоминает вырезание куска из фотографии с надеждой, что всё важное останется. Star Elastic действует иначе: компоненты внутри одной модели выстроены по важности, как стройный рейтинг сотрудников. Когда нужна модель на 23 миллиарда параметров — берутся топовые компоненты. На 12 миллиардов — следующие по списку. Меньшие модели используют подмножество весов большей, что и обеспечивает nested weight-sharing.

Под капотом работают три ключевых механизма. REAP — алгоритм, который оценивает экспертов в MoE не по частоте обращений, а по силе выходного сигнала. Обучаемый роутер получает на вход бюджет параметров и самостоятельно выбирает, какие компоненты оставить. Обучение идёт через Gumbel-Softmax, позволяющий градиентам проходить через дискретные решения. Двухэтапное обучение сначала работает на коротких контекстах (8K токенов) с равномерной нагрузкой, затем переходит к длинным контекстам (49K токенов) с перекосом в сторону большой модели — это критично для задач на рассуждение.

Что реально впечатляет

Двенадцатимиллиардная модель в формате NVFP4 (4-битная квантизация от NVIDIA) помещается в RTX 5080 — видеокарту обычного геймера. Ни одна BF16-конфигурация на таком железе просто не запустится. При этом скорость достигает 7 426 токенов в секунду — уже не игрушечный результат, а вполне рабочий сценарий.

Отдельного внимания заслуживает Elastic Budget Control: малая модель думает (23B), большая отвечает (30B). Такой подход даёт прирост в 16% точности на задачах рассуждения и работает в 1.9 раза быстрее, чем простое ограничение числа токенов в одной модели. Аналогия проста: черновик пишет младший инженер, а финальный текст редактирует senior.

Elastic-23B набирает 85.63 балла на AIME-2025 — олимпиадных задачах по математике.

Кому это нужно

Модели уже доступны на Hugging Face под брендом NVIDIA Nemotron. Для инженеров, работающих с inference и оптимизирующих стоимость инфраструктуры, это определённо стоит попробовать. Один чекпоинт вместо трёх, двойной выигрыш по памяти и динамическое переключение размера модели под задачу — будущее дистилляции выглядит именно так.

Гаджеты и электроника

5,73 млн интересуются