582 подписчика

Новый алгоритм Google (Гугл) TurboQuant (ТурбоКвант) ускоряет искусственный интеллект в 8 раз

СегодняСегодня

4 мин

Компания Google объявила о новой технологии, которая может радикально изменить эффективность современных систем искусственного интеллекта. Речь идет об алгоритме сжатия TurboQuant (ТурбоКвант), предназначенном для оптимизации работы больших языковых моделей — Large Language Models (LLM, большие языковые модели). По данным исследовательского подразделения Google Research, новый алгоритм способен сократить потребление памяти примерно в 6 раз и ускорить вычисления до 8 раз, при этом не ухудшая точность результатов. Такие показатели могут существенно снизить стоимость работы искусственного интеллекта и ускорить внедрение AI-систем в различных устройствах — от дата-центров до смартфонов. Современные AI-модели, такие как Gemma (Джемма) и Mistral (Мистраль), используют сложный механизм обработки контекста, основанный на так называемом attention (механизм внимания). Во время генерации текста модель работает токен за токеном и хранит промежуточные данные в специальной области памяти — key-value

Оглавление

Основная проблема современных AI-моделей
Почему большие языковые модели требуют огромной памяти
Что такое TurboQuant (ТурбоКвант)

Компания Google объявила о новой технологии, которая может радикально изменить эффективность современных систем искусственного интеллекта. Речь идет об алгоритме сжатия TurboQuant (ТурбоКвант), предназначенном для оптимизации работы больших языковых моделей — Large Language Models (LLM, большие языковые модели).

По данным исследовательского подразделения Google Research, новый алгоритм способен сократить потребление памяти примерно в 6 раз и ускорить вычисления до 8 раз, при этом не ухудшая точность результатов.

Такие показатели могут существенно снизить стоимость работы искусственного интеллекта и ускорить внедрение AI-систем в различных устройствах — от дата-центров до смартфонов.

dzen.ru

Технология-IT (информационные технологии): Новости, статьи. | МИР БЕЗ ГЛЯНЦА | МУЛЬТИМЕДИА | Дзен

Основная проблема современных AI-моделей

Почему большие языковые модели требуют огромной памяти

Современные AI-модели, такие как Gemma (Джемма) и Mistral (Мистраль), используют сложный механизм обработки контекста, основанный на так называемом attention (механизм внимания).

Во время генерации текста модель работает токен за токеном и хранит промежуточные данные в специальной области памяти — key-value cache (кэш ключ-значение).

Этот кэш хранит векторные представления текста и позволяет системе не пересчитывать предыдущие данные заново.

Однако именно этот механизм стал одной из главных проблем масштабирования AI.

Причины:

кэш растет вместе с длиной текста
каждый вектор содержит сотни параметров
нагрузка на память GPU постоянно увеличивается

В результате в больших моделях key-value cache может занимать большую часть всей доступной памяти GPU.

Honor 600 Lite: новый смартфон с аккумулятором 6520 мА·ч и камерой 108 МП — что известно о модели

МИР БЕЗ ГЛЯНЦА | МУЛЬТИМЕДИА9 марта

Что такое TurboQuant (ТурбоКвант)

TurboQuant — это новый алгоритм vector quantization (векторного квантования), разработанный исследователями Google для эффективного сжатия данных AI-моделей.

Основная цель технологии — уменьшить объем данных, которые модель хранит в памяти, не снижая точности вычислений.

Согласно опубликованным результатам:

потребление памяти KV-кэша уменьшается примерно в 6 раз
скорость вычислений attention увеличивается до 8 раз
качество генерации текста не ухудшается

В некоторых тестах алгоритм позволил сжать данные кэша до 3-битного формата, что значительно меньше стандартных 16- или 32-битных представлений.

Как работает технология TurboQuant

Двухэтапный алгоритм сжатия

TurboQuant работает как двухступенчатая система, объединяющая несколько математических методов.

Основные компоненты:

PolarQuant (ПоларКвант)
QJL — Quantized Johnson-Lindenstrauss (квантованный метод Джонсона-Линденштраусса)

Обновление iOS 26.4 (АйОС 26.4) для iPhone (Айфон): что нового и почему оно важно

МИР БЕЗ ГЛЯНЦА | МУЛЬТИМЕДИА2 дня назад

PolarQuant (ПоларКвант): переход к полярным координатам

Обычные AI-модели представляют данные в виде векторов в картизианской системе координат (XYZ).

PolarQuant преобразует эти векторы в полярную систему координат.

Это означает, что каждый вектор можно описать всего двумя параметрами:

радиус (сила сигнала)
угол (направление смысла)

Простой пример:

Традиционный способ

«3 квартала на восток и 4 квартала на север»

Новый подход

«5 кварталов под углом 37 градусов»

Такое представление делает данные более компактными и значительно снижает объем памяти.

QJL: коррекция ошибок после сжатия

После первого этапа сжатия могут возникать небольшие ошибки.

Для их компенсации используется метод Quantized Johnson-Lindenstrauss (QJL).

Он работает следующим образом:

применяет случайную проекцию вектора
кодирует остаточную ошибку всего одним битом (+1 или −1)
восстанавливает точность вычисления скалярных произведений

Благодаря этому механизм attention сохраняет точность вычислений даже после сильного сжатия данных.

Лучшие смартфоны по качеству камеры в 2026 году: рейтинг DxOMark (ДхоМарк) — кто вошёл в топ и почему

МИР БЕЗ ГЛЯНЦА | МУЛЬТИМЕДИАВчера

Результаты тестирования

Google протестировал TurboQuant на нескольких открытых моделях:

Gemma (Джемма)
Mistral (Мистраль)
экспериментальные LLM-модели

Испытания включали популярные тестовые наборы:

LongBench
RULER
ZeroSCROLLS
Needle-in-a-Haystack

Результаты оказались весьма впечатляющими.

Основные показатели:

6× меньше памяти для KV-кэша
до 8× ускорение вычислений attention
отсутствие заметного падения точности

Особенно значимый результат был получен на графических процессорах Nvidia H100 (Нвидиа H100).

Почему это может изменить индустрию AI

Сегодня развитие искусственного интеллекта часто ограничено не вычислительной мощностью, а памятью и пропускной способностью GPU.

TurboQuant способен изменить этот баланс.

Потенциальные последствия:

1. Снижение стоимости AI

Меньше памяти означает:

меньше GPU
меньше электроэнергии
дешевле инфраструктура

2. Ускорение работы моделей

Быстрое вычисление attention ускоряет:

генерацию текста
поиск информации
анализ данных

3. AI на мобильных устройствах

Одним из наиболее перспективных направлений считается on-device AI (локальный искусственный интеллект).

Если модели смогут работать с меньшим объемом памяти:

смартфоны
ноутбуки
автономные устройства

смогут выполнять сложные AI-задачи без отправки данных в облако.

OnePlus Nord 6 (УанПлас Норд 6) официально анонсирован: дата выхода, характеристики и что известно

МИР БЕЗ ГЛЯНЦА | МУЛЬТИМЕДИА2 дня назад

Возможные ограничения технологии

Несмотря на впечатляющие результаты, эксперты отмечают несколько факторов, которые еще предстоит проверить.

К ним относятся:

масштабирование алгоритма на сверхбольших моделях
стабильность работы в реальных коммерческих системах
интеграция в популярные AI-фреймворки

На данный момент TurboQuant находится на стадии исследований, а его широкое внедрение будет зависеть от дальнейших тестов и поддержки со стороны разработчиков.

Заключение

Алгоритм TurboQuant (ТурбоКвант) может стать одним из самых важных технологических достижений в области оптимизации искусственного интеллекта последних лет.

Если заявленные характеристики подтвердятся на практике, технология позволит:

значительно снизить стоимость AI-инфраструктуры
ускорить работу больших языковых моделей
приблизить появление мощного AI непосредственно на пользовательских устройствах

В условиях стремительного роста рынка искусственного интеллекта такие решения могут сыграть ключевую роль в следующем этапе развития индустрии.

Вам могут понравиться следующие статьи :

Смартфоны с самой долгой автономностью в 2026 году — топ-10 по ёмкости батареи

МИР БЕЗ ГЛЯНЦА | МУЛЬТИМЕДИАВчера

Intel (Интел) Core Ultra Series 3 vPro (Коре Ультра Сериес 3 вПро): первая коммерческая платформа на техпроцессе 18A с ИИ-ускорением до 50 T

МИР БЕЗ ГЛЯНЦА | МУЛЬТИМЕДИАСегодня

Huawei Band 11 и Band 11 Pro: подробный обзор новых умных браслетов 2026

МИР БЕЗ ГЛЯНЦА | МУЛЬТИМЕДИА22 февраля

Honor 600 (Онор 600) и Honor 600 Pro (Онор 600 Про): дизайн в стиле iPhone 17 Pro и огромная батарея — что известно о новых смартфонах

МИР БЕЗ ГЛЯНЦА | МУЛЬТИМЕДИАВчера

#искусственныйинтеллект #googleai #алгоритмысжатия #новостиai #большиеязыковыемодели #технологии2026 #развитиеии #нейросети #aiтехнологии #исследованияgoogle