25 подписчиков

🔥 Запускаем модель с 480 миллиардами параметров на домашнем ПК

13 ноября 202513 ноя 2025

1 мин

🔥 Запускаем модель с 480 миллиардами параметров на домашнем ПК! Оказывается, AI модель можно запустить на локальном компьютере. Не слишком быстро работает - всего 2 токена в секунду - зато 100% конфиденциально. Кстати, модель Qwen3 (модель фаворит). Хочу поделиться кайфом — мне удалось запустить Qwen3-Coder-480B (да-да, четыреста восемьдесят миллиардов параметров) на обычной локальной машине через llama.cpp. Мой "железный" стенд: CPU: Intel i9-13900KS RAM: 128 ГБ (DDR5 4800) GPU: RTX 4090 (24 ГБ VRAM) Модель: Qwen3-Coder-480B-A35B-Instruct (версии от Unsloth с квантованием 4 и 3 бита) 🚀 Результаты производительности: UD-Q3_K_XL: ~2.0 токена/сек UD-Q4_K_XL: ~1.0 токен/сек ⚙️ Команды для запуска (llama.cpp): Для Q3 (быстрее): llama-server \ --threads 32 --jinja --flash-attn on \ --cache-type-k q8_0 --cache-type-v q8_0 \ --model <YOUR-MODEL-DIR>/Qwen3-Coder-480B-A35B-Instruct-UD-Q3_K_XL-00001-of-00005.gguf \ --ctx-size 131072 --n-cpu-moe 9999 --no-warmup Для Q4 (точнее, но медле

🔥 Запускаем модель с 480 миллиардами параметров на домашнем ПК!

Оказывается, AI модель можно запустить на локальном компьютере. Не слишком быстро работает - всего 2 токена в секунду - зато 100% конфиденциально. Кстати, модель Qwen3 (модель фаворит).

Хочу поделиться кайфом — мне удалось запустить Qwen3-Coder-480B (да-да, четыреста восемьдесят миллиардов параметров) на обычной локальной машине через llama.cpp.

Мой "железный" стенд:

CPU: Intel i9-13900KS

RAM: 128 ГБ (DDR5 4800)

GPU: RTX 4090 (24 ГБ VRAM)

Модель: Qwen3-Coder-480B-A35B-Instruct (версии от Unsloth с квантованием 4 и 3 бита)

🚀 Результаты производительности:

UD-Q3_K_XL: ~2.0 токена/сек

UD-Q4_K_XL: ~1.0 токен/сек

⚙️ Команды для запуска (llama.cpp):

Для Q3 (быстрее):

llama-server \

--threads 32 --jinja --flash-attn on \

--cache-type-k q8_0 --cache-type-v q8_0 \

--model <YOUR-MODEL-DIR>/Qwen3-Coder-480B-A35B-Instruct-UD-Q3_K_XL-00001-of-00005.gguf \

--ctx-size 131072 --n-cpu-moe 9999 --no-warmup

Для Q4 (точнее, но медленнее):

llama-server \

--threads 32 --jinja --flash-attn on \

--cache-type-k q8_0 --cache-type-v q8_0 \

--model <YOUR-MODEL-DIR>/Qwen3-Coder-480B-A35B-Instruct-UD-Q4_K_XL-00001-of-00006.gguf \

--ctx-size 131072 --n-cpu-moe 9999 --no-warmup

💡 ВАЖНО: Флаг --no-warmup обязателен! Без него процесс умрёт до начала сессии.

Да, это возможно!

Запуск модели с безумным количеством параметров на домашнем ПК — реальность.

Квантование делает своё дело.

Кайф — в деталях.

Ампилов про ИТ: https://dzen.ru/id/623d938f380f3715018b6e3c