Добавить в корзинуПозвонить
Найти в Дзене
Территория смысла

NVIDIA выпустила Star Elastic — одну модель, которая заменяет три

NVIDIA представила технологию Star Elastic, которая из одного обученного чекпоинта позволяет получить сразу три модели разного размера — 30B, 23B и 12B параметров. Без дополнительного обучения каждой по отдельности. Это принципиально меняет подход к дистилляции и оптимизации инфраструктуры для AI-систем. Технология обеспечивает экономию в 360 раз по объёму данных по сравнению с обучением каждой модели с нуля. Вместо трёх отдельных файлов на 126.1 GB достаточно хранить один на 58.9 GB. При этом самая маленькая версия (12B) работает в 3.4 раза быстрее 30B-модели при сопоставимом качестве. Обычная обрезка модели напоминает вырезание куска из фотографии с надеждой, что всё важное останется. Star Elastic действует иначе: компоненты внутри одной модели выстроены по важности, как стройный рейтинг сотрудников. Когда нужна модель на 23 миллиарда параметров — берутся топовые компоненты. На 12 миллиардов — следующие по списку. Меньшие модели используют подмножество весов большей, что и обеспечива
Оглавление

Как NVIDIA научилась делать три модели из одной

NVIDIA представила технологию Star Elastic, которая из одного обученного чекпоинта позволяет получить сразу три модели разного размера — 30B, 23B и 12B параметров. Без дополнительного обучения каждой по отдельности. Это принципиально меняет подход к дистилляции и оптимизации инфраструктуры для AI-систем.

Что это даёт на практике

Технология обеспечивает экономию в 360 раз по объёму данных по сравнению с обучением каждой модели с нуля. Вместо трёх отдельных файлов на 126.1 GB достаточно хранить один на 58.9 GB. При этом самая маленькая версия (12B) работает в 3.4 раза быстрее 30B-модели при сопоставимом качестве.

Техническая реализация

Обычная обрезка модели напоминает вырезание куска из фотографии с надеждой, что всё важное останется. Star Elastic действует иначе: компоненты внутри одной модели выстроены по важности, как стройный рейтинг сотрудников. Когда нужна модель на 23 миллиарда параметров — берутся топовые компоненты. На 12 миллиардов — следующие по списку. Меньшие модели используют подмножество весов большей, что и обеспечивает nested weight-sharing.

Под капотом работают три ключевых механизма. REAP — алгоритм, который оценивает экспертов в MoE не по частоте обращений, а по силе выходного сигнала. Обучаемый роутер получает на вход бюджет параметров и самостоятельно выбирает, какие компоненты оставить. Обучение идёт через Gumbel-Softmax, позволяющий градиентам проходить через дискретные решения. Двухэтапное обучение сначала работает на коротких контекстах (8K токенов) с равномерной нагрузкой, затем переходит к длинным контекстам (49K токенов) с перекосом в сторону большой модели — это критично для задач на рассуждение.

Что реально впечатляет

Двенадцатимиллиардная модель в формате NVFP4 (4-битная квантизация от NVIDIA) помещается в RTX 5080 — видеокарту обычного геймера. Ни одна BF16-конфигурация на таком железе просто не запустится. При этом скорость достигает 7 426 токенов в секунду — уже не игрушечный результат, а вполне рабочий сценарий.

Отдельного внимания заслуживает Elastic Budget Control: малая модель думает (23B), большая отвечает (30B). Такой подход даёт прирост в 16% точности на задачах рассуждения и работает в 1.9 раза быстрее, чем простое ограничение числа токенов в одной модели. Аналогия проста: черновик пишет младший инженер, а финальный текст редактирует senior.

Elastic-23B набирает 85.63 балла на AIME-2025 — олимпиадных задачах по математике.

Кому это нужно

Модели уже доступны на Hugging Face под брендом NVIDIA Nemotron. Для инженеров, работающих с inference и оптимизирующих стоимость инфраструктуры, это определённо стоит попробовать. Один чекпоинт вместо трёх, двойной выигрыш по памяти и динамическое переключение размера модели под задачу — будущее дистилляции выглядит именно так.