1655 подписчиков

Извините, что сделаю машинный перевод, но мне сложно своими словами внятно написать опыт локального запуска ИИ

14 мая14 мая

1 мин

Извините, что сделаю машинный перевод, но мне сложно своими словами внятно написать опыт локального запуска ИИ. Обратите внимание на скорость генерации..

Автор делится опытом разгона производительности на системе с видеокартами 3090 и двумя 3060, используя llama.cpp для работы с нейронными моделями.

Он переместил одну 3090 на райзер, что улучшило работу системы, и рассказывает, как эффективно настроить такую связку.

Смешивать разные GPU можно, и он объясняет, как это сделать. Для небольших моделей, таких как Qwen3 8B и 14B, достаточно одной 3090: отключение 3060 увеличивает производительность с 48 до 82 токенов/с для 8B и с 28 до 48 для 14B.

Для крупных моделей, например Qwen3 32B, требуется распределять тензоры между картами: больше на 3090, меньше на 3060. Настройки подбираются экспериментально, иначе модель не загрузится, если, скажем, выделить 26 ГБ на 24-гиговую карту.

С оптимизацией Qwen3 32B выдаёт 15.6 токенов/с вместо 13, а в режиме "row" (при свежей версии llama.cpp) — 16.4. Модель Nemotron 49B в Q6 разогналась с 12.4 до 14.1 токенов/с, но для Q8 нужна ещё одна 3090.

Для 70B модели (DeepSeek-R1-Distill-Llama-70B в Q4) производительность выросла с 10.3 до 12.1 токенов/с. Gemma3 27B с оптимизированным распределением тензоров ускорилась с 14.9 до 18.9 токенов/с, но режим sm row слегка снижает результат до 18.5. Mistral Small 24B (по какой-то причине названный Llama 13B) показал скачок с 18.8 до 28.2 токенов/с, но в sm row производительность упала до 26.1.

Русский ИТ бизнес