Prima.cpp: инструмент для запуска LLM на домашнем кластере с минимальным потреблением памяти Этот форк llama.cpp позволяет запускать тяжёлые LLM-ки локально с минимальным потреблением памяти (менее 10%). И задействовать кластер из нескольких устройств — ноутбуков, ПК или даже телефонов. Благодаря оптимизированной загрузке, параллельной обработке и CPU/GPU offloading, inference тянет даже llm-ки масштаба 70B на скромных домашних кластерах. Такое мы сохраняем 👍 #llm
Prima.cpp: инструмент для запуска LLM на домашнем кластере с минимальным потреблением памяти
2 мая 20252 мая 2025
9
~1 мин