Найти в Дзене
Максим Кульгин

Извините, что сделаю машинный перевод, но мне сложно своими словами внятно написать опыт локального запуска ИИ

Извините, что сделаю машинный перевод, но мне сложно своими словами внятно написать опыт локального запуска ИИ. Обратите внимание на скорость генерации..

Автор делится опытом разгона производительности на системе с видеокартами 3090 и двумя 3060, используя llama.cpp для работы с нейронными моделями.

Он переместил одну 3090 на райзер, что улучшило работу системы, и рассказывает, как эффективно настроить такую связку.

Смешивать разные GPU можно, и он объясняет, как это сделать. Для небольших моделей, таких как Qwen3 8B и 14B, достаточно одной 3090: отключение 3060 увеличивает производительность с 48 до 82 токенов/с для 8B и с 28 до 48 для 14B.

Для крупных моделей, например Qwen3 32B, требуется распределять тензоры между картами: больше на 3090, меньше на 3060. Настройки подбираются экспериментально, иначе модель не загрузится, если, скажем, выделить 26 ГБ на 24-гиговую карту.

С оптимизацией Qwen3 32B выдаёт 15.6 токенов/с вместо 13, а в режиме "row" (при свежей версии llama.cpp) — 16.4. Модель Nemotron 49B в Q6 разогналась с 12.4 до 14.1 токенов/с, но для Q8 нужна ещё одна 3090.

Для 70B модели (DeepSeek-R1-Distill-Llama-70B в Q4) производительность выросла с 10.3 до 12.1 токенов/с. Gemma3 27B с оптимизированным распределением тензоров ускорилась с 14.9 до 18.9 токенов/с, но режим sm row слегка снижает результат до 18.5. Mistral Small 24B (по какой-то причине названный Llama 13B) показал скачок с 18.8 до 28.2 токенов/с, но в sm row производительность упала до 26.1.

Русский ИТ бизнес