Чел запустил одновременно Qwen3-235B-A22B и LLama 4 Maverick на мощной системе с 6x RTX 3090 и процессором Epyc 7532, с 256 ГБ DDR4. Qwen3 на 5 видеокартах выдает 25 токенов/с, а Maverick на одной видеокарте и процессоре — 20 токенов/с. Смешанная квантизация Qwen3 (106.83 ГБ, 3.903 BPW) дает PPL 5.4403, а при 20К контекста скорость падает до 14 токенов/с. Сборка на картинке. Итоговая примерная стоимость 1 млн. рублей в РФ. 20 токенов в сек. при таких вложениях :) Русский ИТ бизнес
Чел запустил одновременно Qwen3-235B-A22B и LLama 4 Maverick на мощной системе с 6x RTX 3090 и процессором Epyc 7532, с 256 ГБ DDR4
15 мая 202515 мая 2025
16
~1 мин