117 подписчиков

Google выпустили обновленные версии Gemma-3, которые можно запустить локально на домашних видеокартах

20 апреля 202520 апр 2025

~1 мин

Google выпустили обновленные версии Gemma-3, которые можно запустить локально на домашних видеокартах Например, теперь, чтобы запустить Gemma 3 27B, понадобится всего 14 гигабайт vRAM вместо 54. А Gemma 3 1B вообще заведется на 0.5 Gb (считай, на утюге). Технически все дело в квантовании. Квантование – это когда мы снижаем точность чисел, которые модель хранит и использует для расчетов. Обычно квантование снижает качество ответов исходной модели, но тут Gemma специально натренили быть к этому устойчивой. Это называется Quantization-Aware Training: модель квантуют не после окончания обучения, а прямо во время. Веса уже на HF INCUBE.AI | ПОДПИСАТЬСЯ

Например, теперь, чтобы запустить Gemma 3 27B, понадобится всего 14 гигабайт vRAM вместо 54. А Gemma 3 1B вообще заведется на 0.5 Gb (считай, на утюге).

Технически все дело в квантовании. Квантование – это когда мы снижаем точность чисел, которые модель хранит и использует для расчетов.

Обычно квантование снижает качество ответов исходной модели, но тут Gemma специально натренили быть к этому устойчивой. Это называется Quantization-Aware Training: модель квантуют не после окончания обучения, а прямо во время.

Веса уже на HF

INCUBE.AI | ПОДПИСАТЬСЯ