5 подписчиков
Практические расчёты VRAM для локального запуска LLM, подчёркивая приоритет объёма памяти над скоростью GPU и риски свопинга в RAM.
Для домашнего ПК фокус на балансе цены, шума и апгрейдабельности под задачи вроде чат-ботов или файн-тюнинга.
Ключевые формулы VRAM
Объём памяти рассчитывается как базовый вес модели (P параметров × размер бита / 8) + 0.55 ГБ (буферы) + 0.08 × P (активации) + кэш KV (зависит от контекста N, слоёв L, размерности d). Для Q4_K_M (4 бита): 70B-модель требует ~40–50 ГБ с контекстом 32K токенов; свопинг в RAM снижает скорость до 2–5 ток/с.
Рекомендации по GPU
Бюджет (до 8 ГБ VRAM): Intel Arc B580 или RTX 3060 — для 7–8B моделей (Llama 3.1 8B, 50–100 ток/с).
Средний (12–16 ГБ): RTX 4060 Ti 16 ГБ — Gemma 2 12B, Qwen 2.5 14B; комфорт для кодинга.
Топ для дома (24–32 ГБ): RTX 3090/5090 — 30–70B модели (Qwen 2.5 32B, 128 ток/с на 8B); пара карт требует PCIe x8/x8 и Xeon-платформу.
CPU и альтернативы
Ryzen 9 9950X с 128 ГБ DDR5 тянет 123B-модели на 2–3 ток/с — для пакетной обработки без GPU. Mac Studio M3 Ultra (192–512 ГБ унифицированной памяти) — бесшумный вариант для 671B (17 ток/с), но неапгрейдабельный и дорогой (~5500$).
Практика покупки ПК
Выберите 16+ ГБ VRAM минимум, PCIe 4.0+ для апгрейда, тихий кейс; используйте LLMfit для теста совместимости. Для LoRA-файнтюнинга (Unsloth) хватит 6–12 ГБ VRAM на 7B-модели; избегайте серверных A6000 из-за цены.
1 минута
3 марта