https://vllm.ai/blog/2026-05-11-turboquant Год назад Google опубликовал статью о квантизации KV‑кэша, которая вызвала резонанс: инвесторы решили, что снижение потребности в оперативной памяти уменьшит спрос на DRAM, — и акции производителей памяти временно упали, но видимо не надолго) В статье на vLLM провели тестирование TurboQuant на трёх архитектурах моделей, оценив: * Качество на бенчмарках —, MMLU, GSM8K, HumanEval. * Объём памяти — сколько занимает KV‑кэш после квантизации. * Пропускную способность — число токенов в секунду. Результаты: По качеству (точность) * k8v4 и 4‑bit‑nc: почти без потерь точности на стандартных бенчмарках. Падение баллов — в пределах статистической погрешности. * 3‑bit квантизация: заметное проседание, особенно на задачах с длинным контекстом (например, суммаризация документов, ответы на вопросы по большим текстам). Причина — высокая потеря информации при сильной квантизации: модель хуже «помнит» ранние части диалога или документа. По объёму памяти
Год назад Google опубликовал статью о квантизации KV‑кэша, которая вызвала резонанс: инвесторы решили, что снижение потребности в
СегодняСегодня
2 мин