Найти в Дзене
Максим Кульгин

Чел запустил одновременно Qwen3-235B-A22B и LLama 4 Maverick на мощной системе с 6x RTX 3090 и процессором Epyc 7532, с 256 ГБ DDR4

Чел запустил одновременно Qwen3-235B-A22B и LLama 4 Maverick на мощной системе с 6x RTX 3090 и процессором Epyc 7532, с 256 ГБ DDR4. Qwen3 на 5 видеокартах выдает 25 токенов/с, а Maverick на одной видеокарте и процессоре — 20 токенов/с. Смешанная квантизация Qwen3 (106.83 ГБ, 3.903 BPW) дает PPL 5.4403, а при 20К контекста скорость падает до 14 токенов/с. Сборка на картинке. Итоговая примерная стоимость 1 млн. рублей в РФ. 20 токенов в сек. при таких вложениях :) Русский ИТ бизнес

Чел запустил одновременно Qwen3-235B-A22B и LLama 4 Maverick на мощной системе с 6x RTX 3090 и процессором Epyc 7532, с 256 ГБ DDR4.

Qwen3 на 5 видеокартах выдает 25 токенов/с, а Maverick на одной видеокарте и процессоре — 20 токенов/с. Смешанная квантизация Qwen3 (106.83 ГБ, 3.903 BPW) дает PPL 5.4403, а при 20К контекста скорость падает до 14 токенов/с.

Сборка на картинке. Итоговая примерная стоимость 1 млн. рублей в РФ. 20 токенов в сек. при таких вложениях :)

Русский ИТ бизнес