35 подписчиков

Google представила TurboQuant: новая технология, которая уменьшает потребление оперативной памяти ИИ в 6 раз

29 марта29 мар

3 мин

В марте 2026 года мир ИИ столкнулся с настоящим «RAM апокалипсис» — глобальным дефицитом оперативной памяти. Дата-центры для искусственного интеллекта пожирают до 70 % всего производства высококачественной DRAM, цены на модули памяти взлетели на 50–200 %, а производители вроде Samsung, SK Hynix и Micron переориентировали мощности на серверные чипы HBM. И вот Google Research наносит неожиданный удар по кризису. Компания представила TurboQuant — алгоритм сжатия памяти, который сокращает объём оперативной памяти, необходимой ИИ-моделям, минимум в 6 раз без потери точности и даже ускоряет работу до 8 раз. Современные большие языковые модели (LLM) работают по принципу внимания (attention). Чтобы не пересчитывать всё заново для каждого нового токена, модель сохраняет промежуточные результаты — ключевые (Key) и значимые (Value) векторы — в специальном буфере, который называется KV-кэш. При длинном контексте (сотни тысяч токенов) этот кэш может занимать десятки гигабайт оперативной памяти на о

Оглавление

В чём проблема KV-кэша?
Как работает TurboQuant?
Цифры, которые шокируют

И вот Google Research наносит неожиданный удар по кризису. Компания представила TurboQuant — алгоритм сжатия памяти, который сокращает объём оперативной памяти, необходимой ИИ-моделям, минимум в 6 раз без потери точности и даже ускоряет работу до 8 раз.

В чём проблема KV-кэша?

Современные большие языковые модели (LLM) работают по принципу внимания (attention). Чтобы не пересчитывать всё заново для каждого нового токена, модель сохраняет промежуточные результаты — ключевые (Key) и значимые (Value) векторы — в специальном буфере, который называется KV-кэш.

При длинном контексте (сотни тысяч токенов) этот кэш может занимать десятки гигабайт оперативной памяти на один запрос. Именно он стал главным «узким горлышком» ИИ-инференса и главной причиной взлёта цен на память.

Как работает TurboQuant?

TurboQuant — это не просто «сжатие данных», а математически выверенный подход на основе векторной квантизации. Он состоит из двух революционных компонентов:

PolarQuant — преобразование векторов из декартовых координат в полярные.
Алгоритм случайным образом «вращает» векторы, а потом переводит их в полярную систему (радиус + угол). Углы концентрируются на фиксированной круговой сетке, поэтому отпадает необходимость в дорогой нормализации данных. Большинство битов уходит на «силу» и «направление» вектора — ключевую информацию.
QJL (Quantized Johnson-Lindenstrauss) — 1-битное исправление ошибок.
Остаточные погрешности после первого этапа сжимаются до одного бита (+1 или −1) с помощью преобразования Джонсона-Линденштраусса. Специальный оценщик устраняет смещение, сохраняя точность вычисления attention-скоров.

Важно: алгоритм не требует переобучения модели и работает «на лету». Никаких дополнительных констант квантизации — память почти не тратится на overhead.

Цифры, которые шокируют

Google протестировала TurboQuant на открытых моделях (Gemma, Mistral, Llama-3.1-8B) и на стандартных бенчмарках длинного контекста: LongBench, Needle-in-a-Haystack, RULER, ZeroSCROLLS и L-Eval.

Результаты:

Снижение памяти KV-кэша — минимум в 6 раз (до 3–4 бит на канал вместо 32 бит).
Точность — 100 % сохранение качества на всех задачах (вопрос-ответ, генерация кода, суммаризация, поиск иголки в стоге).
Скорость — вычисление attention logits на GPU NVIDIA H100 ускоряется до 8 раз по сравнению с 32-битной версией.

На тесте Needle-in-a-Haystack модель с 4-кратным сжатием идеально находила «иголку» даже при контексте 104 000 токенов.

Реакция рынка

После анонса акции производителей памяти резко упали: Samsung — на 8 %, SK Hynix — на 11 %, Micron — на 10 %. Аналитики заговорили о возможном конце «RAM-безумия». Если TurboQuant (или его аналоги) будет внедрён в реальные модели Gemini и другие сервисы Google, спрос на память со стороны ИИ может существенно снизиться.

Что это значит для обычных пользователей?

Дешёвые ИИ-сервисы — меньше памяти = ниже затраты на дата-центры = ниже цены подписок.
Более мощные модели на устройствах — смартфоны и ноутбуки смогут запускать большие LLM локально.
Экологический эффект — меньшее потребление энергии дата-центрами.
Будущее поиска — векторный поиск (семантический) станет мгновенным даже в базах миллиардов документов.

Перспективы

TurboQuant уже готов к презентации на конференциях ICLR 2026 и AISTATS 2026. Google открыто делится математическими основами (PolarQuant и QJL), так что сообщество уже начало реализовывать алгоритм в открытых библиотеках.

Это не просто оптимизация — это фундаментальный прорыв в сжатии высокомерных данных. TurboQuant доказывает: будущее ИИ — не в покупке всё большего количества памяти, а в умном её использовании.

Google только что показала, как одним алгоритмом можно перевернуть весь рынок оперативной памяти. И это только начало.