NVIDIA в январе 2026 года на CES громко заявила: платформа Vera Rubin даёт до 10 раз ниже стоимость инференса на миллион токенов по сравнению с Blackwell. Звучит как мечта — платишь в 10 раз меньше за каждый запрос к модели, и всё счастливо. Но на практике у многих команд в марте 2026 года картина другая: перешли (или переходят) на Rubin — а счёт за облако или за свой кластер не падает, а иногда даже растёт. Почему так происходит? Разберём по пунктам реальные причины из production-кейсов 2026 года. 1. Rubin реально даёт 5–10× на бумаге, но только в идеальных условиях NVIDIA сравнивает: Реальные цифры от NVIDIA (на основе их бенчмарков Kimi-K2-Thinking и подобных): Но это при 70–90% утилизации GPU, на оптимизированных пайплайнах TensorRT-LLM + NVLink 6 + HBM4-память + adaptive compression в Transformer Engine 3-го поколения. Если у вас: то вы получаете только 2–4× экономию, а не 10×. Многие компании в первые 3–6 месяцев после миграции видят именно это. Самая большая причина роста расход
Rubin обещает 10× дешевле токенов — но почему в реальном проде ваши расходы всё равно растут?
12 марта12 мар
3 мин