38 подписчиков

Год назад Google опубликовал статью о квантизации KV‑кэша, которая вызвала резонанс: инвесторы решили, что снижение потребности в

СегодняСегодня

2 мин

https://vllm.ai/blog/2026-05-11-turboquant Год назад Google опубликовал статью о квантизации KV‑кэша, которая вызвала резонанс: инвесторы решили, что снижение потребности в оперативной памяти уменьшит спрос на DRAM, — и акции производителей памяти временно упали, но видимо не надолго) В статье на vLLM провели тестирование TurboQuant на трёх архитектурах моделей, оценив: * Качество на бенчмарках —, MMLU, GSM8K, HumanEval. * Объём памяти — сколько занимает KV‑кэш после квантизации. * Пропускную способность — число токенов в секунду. Результаты: По качеству (точность) * k8v4 и 4‑bit‑nc: почти без потерь точности на стандартных бенчмарках. Падение баллов — в пределах статистической погрешности. * 3‑bit квантизация: заметное проседание, особенно на задачах с длинным контекстом (например, суммаризация документов, ответы на вопросы по большим текстам). Причина — высокая потеря информации при сильной квантизации: модель хуже «помнит» ранние части диалога или документа. По объёму памяти

https://vllm.ai/blog/2026-05-11-turboquant

Год назад Google опубликовал статью о квантизации KV‑кэша, которая вызвала резонанс: инвесторы решили, что снижение потребности в оперативной памяти уменьшит спрос на DRAM, — и акции производителей памяти временно упали, но видимо не надолго)

В статье на vLLM провели тестирование TurboQuant на трёх архитектурах моделей, оценив:

* Качество на бенчмарках —, MMLU, GSM8K, HumanEval.

* Объём памяти — сколько занимает KV‑кэш после квантизации.

* Пропускную способность — число токенов в секунду.

Результаты:

По качеству (точность)

* k8v4 и 4‑bit‑nc: почти без потерь точности на стандартных бенчмарках. Падение баллов — в пределах статистической погрешности.

* 3‑bit квантизация: заметное проседание, особенно на задачах с длинным контекстом (например, суммаризация документов, ответы на вопросы по большим текстам). Причина — высокая потеря информации при сильной квантизации: модель хуже «помнит» ранние части диалога или документа.

По объёму памяти

* k8v4 и 4‑bit: экономия 15–35% по сравнению с fp8‑кэшем.

* 3‑bit: ещё меньше памяти, но за счёт резкой потери качества.

По производительности:

Здесь результаты разочаровывают:

* Из‑за постоянной деквантизации пропускная способность падает на 10–70%, в зависимости от сценария:

* 10–20% — короткие запросы, малый batch size.

* 50–70% — длинные контексты, большой batch size, много одновременных запросов.

* Основная причина — накладные расходы на деквантизацию: GPU тратит циклы не на вычисления, а на конвертацию форматов.

Плюсы TurboQuant:

* Экономия памяти: подходит для сценариев, где критичен объём KV‑кэша (например, длинные контексты на ограниченном железе).

* Сохранение качества при 4‑bit квантизации: можно использовать в задачах, не требующих максимальной точности.

Минусы TurboQuant:

* Падение пропускной способности: метод неэффективен для высоконагруженных серверов с тысячами одновременных запросов.

* Проблемы с 3‑bit: не подходит для задач с длинным контекстом (юридические документы, научные статьи).

По итогу где применим:

* Локальный запуск (ноутбуки, компы): когда важнее сэкономить память, чем максимизировать скорость.

* Эксперименты и эрэнди: если нужно быстро развернуть модель с большим контекстом на потребительском GPU.

Где не надо применять:

* Облачные сервисы (API‑хостинги, чат‑боты для бизнеса): падение throughput на 50% делает метод экономически невыгодным.

* Высокоскоростные конвейеры (реал‑тайм перевод, генерация контента для соцсетей).

* Задачи с длинным контекстом при 3‑bit квантизации.