Короче, чувак на Reddit под ником jacek2023 делится, как он собрал мощную машину для работы с нейросеткой Qwen3 32B Q8 на трёх видюхах: 3090 и двух 3060. Пока прееводил ссылку потерял, сорян.
Поставил их на материнку X399 с четырьмя PCI-E слотами, но карты стоят близко, одна 3060 греется.
Впервые запустил модель 32B без выгрузки в оперативку, получил 11–15 токенов в секунду. Сравнил с моделью 14B: три видюхи вместе дают 28 токенов/с, а одна 3090 — 49 токенов/с.
Другие юзеры отписались: один на MacBook Pro M4 Max с 64 ГБ памяти гоняет Qwen3-32B на 12.5 токенов/с, а Qwen3-30B — на 72.9 токенов/с.
Это вам для оценки что можно выжать из неплохой и современной ИИ по генерации в домашних условиях.