NVIDIA представила технологию Star Elastic, которая из одного обученного чекпоинта позволяет получить сразу три модели разного размера — 30B, 23B и 12B параметров. Без дополнительного обучения каждой по отдельности. Это принципиально меняет подход к дистилляции и оптимизации инфраструктуры для AI-систем. Технология обеспечивает экономию в 360 раз по объёму данных по сравнению с обучением каждой модели с нуля. Вместо трёх отдельных файлов на 126.1 GB достаточно хранить один на 58.9 GB. При этом самая маленькая версия (12B) работает в 3.4 раза быстрее 30B-модели при сопоставимом качестве. Обычная обрезка модели напоминает вырезание куска из фотографии с надеждой, что всё важное останется. Star Elastic действует иначе: компоненты внутри одной модели выстроены по важности, как стройный рейтинг сотрудников. Когда нужна модель на 23 миллиарда параметров — берутся топовые компоненты. На 12 миллиардов — следующие по списку. Меньшие модели используют подмножество весов большей, что и обеспечива
NVIDIA выпустила Star Elastic — одну модель, которая заменяет три
2 дня назад2 дня назад
8
2 мин