Инженеры компании Unsloth представили возможность запускать модель Grok 2 локально. Эта версия, также известная как Grok 2.5, насчитывает 270 млрд параметров. Полноценная работа требует 539 ГБ памяти, однако в сжатом виде размер снижен на 75% — до 118 ГБ.
Благодаря поддержке сообщества и разработчиков llama.cpp стало возможно использовать 3-битную версию модели. Она запускается на компьютере Mac с 128 ГБ оперативной памяти или на видеокарте с 24 ГБ памяти при дополнительной загрузке на 128 ГБ ОЗУ. Скорость работы достигает более 5 токенов в секунду.
По данным разработчиков, квантованные версии Grok позволяют минимизировать потери точности, сохраняя высокие результаты на тестах MMLU и KL Divergence.
Варианты с большей точностью требуют до 300 ГБ памяти и подходят для систем с видеокартой на 80 ГБ и дополнительными 200 ГБ ОЗУ. В случае нехватки ресурсов возможно использование SSD или жесткого диска, однако скорость работы при этом снижается.
Автор: Артем Гафаров