В марте 2026 года Google тихо опубликовал научную статью под названием «TurboQuant». Через сутки после публикации акции SK Hynix упали на 6%, Samsung — на 5%, Micron — на 3,4%. Глава Cloudflare Мэтью Принс назвал это «DeepSeek-моментом Google». Технический мир обсуждал новость сутками.
Что произошло? И почему эта сугубо техническая история касается не только биржевых трейдеров, но и обычного пользователя, который планирует купить ноутбук или просто общается с ChatGPT?
Разберёмся.
Проблема, которую никто не замечал
Когда вы переписываетесь с нейросетью — ChatGPT, Claude, Gemini, YandexGPT — происходит одна незаметная вещь. Модель должна «помнить» весь ваш разговор: каждое сообщение, каждое слово, каждую запятую. Без этой памяти она не сможет ответить осмысленно на третью реплику, опираясь на первую.
Эта память называется KV-кэш (от key-value, «ключ-значение»). Это не то, что нейросеть выучила при обучении. Это то, что она держит в голове прямо сейчас, пока разговаривает именно с вами.
Проблема простая: чем длиннее разговор или документ, который вы обсуждаете, тем больше KV-кэш. И растёт он линейно. Короткий вопрос — немного памяти. Длинный контракт на 100 страниц — сотни гигабайт памяти. А память современных видеокарт — дорогая и ограниченная.
Для Llama 3 на 70 миллиардов параметров KV-кэш при контексте 128 тысяч токенов может занимать памяти больше, чем сама модель Nerdleveltech. Именно поэтому услуги вроде ChatGPT с длинным контекстом стоят дороже: серверам дорого хранить всё, что вы написали.
Это и есть главная причина, почему AI в 2024–2025 годах стоил дорого. Не обучение моделей. А каждодневное обслуживание миллионов разговоров.
Что сделали в Google
TurboQuant — это алгоритм, который сжимает KV-кэш в 6 раз без потери качества. Модель после его применения ведёт себя точно так же, как без него: отвечает так же осмысленно, понимает те же нюансы, выдаёт те же результаты.
Проще говоря: память, которую раньше нейросеть держала на весь диван, теперь помещается на подушку. Функциональность та же.
Ключевые цифры, о которых говорят в индустрии:
В тестах на видеокартах Nvidia H100 четырёхбитная версия TurboQuant показала восьмикратный прирост производительности при вычислении attention logits и уменьшение памяти KV-кэша минимум в шесть раз Tom's Hardware. Работает без дообучения модели, без калибровочных данных, на любой современной архитектуре.
Главное: это не квантизация модели (то, о чём уже давно говорят в мире AI). Это квантизация рабочей памяти модели — той самой, что растёт в процессе разговора.
Почему упали акции производителей памяти
Логика рынка простая. Последние два года главной ставкой на AI-буме была нехватка памяти: видеокарт не хватает, памяти для них не хватает, всё дорожает, акции производителей чипов памяти (HBM) растут.
TurboQuant бьёт ровно в эту логику. Сокращение памяти KV-кэша в 6 раз означает либо в 6 раз больше пользователей на одну видеокарту, либо возможность обслуживать в разы более длинные контексты без добавления железа. VentureBeat оценил, что TurboQuant может снизить облачные затраты на AI на 50% и выше для задач с длинным контекстом o-mega.
Если каждый сервер может обслужить в 6 раз больше клиентов — значит, новых серверов нужно строить в 6 раз меньше. А производители памяти, считавшие, что мир купит у них все запасы под AI-бум, вдруг оказались в другом сценарии.
Рынок отреагировал моментально. Для сравнения: когда китайская DeepSeek в начале 2025 года показала, что обучать сильные модели можно дешевле, чем считалось, акции Nvidia тогда упали на 17% за день. TurboQuant — того же типа событие, только бьёт не по обучению, а по эксплуатации.
Что это значит для обычного пользователя
Честно: на следующий день ваш чат с ChatGPT не станет бесплатным и мгновенным. Но долгосрочные последствия вполне конкретные.
AI подешевеет. Облачные сервисы пересматривают себестоимость. Компании, которые раньше осторожно платили за API OpenAI, Anthropic или Google, смогут обрабатывать больше запросов за те же деньги. Подписки на AI-сервисы, вероятно, либо станут дешевле, либо предложат больше возможностей за ту же цену.
AI поедет на домашние устройства. Главная причина, почему локальные нейросети на ноутбуках и телефонах ограничены — как раз нехватка памяти для длинных диалогов. Независимые разработчики в течение суток после публикации Google уже начали делать реализации TurboQuant — в том числе в библиотеке MLX для Apple Silicon и в llama.cpp для домашних серверов Stark Insider. Это означает: через пару обновлений iOS и Android нейросети на телефонах и ноутбуках смогут держать в памяти длинные разговоры, обрабатывать большие документы без отправки в облако. Приватность и удобство вырастут.
NPU и «AI-ноутбуки» станут осмысленнее. Мы недавно разбирали NPU — нейропроцессоры, которые Intel, AMD и Qualcomm пихают в каждый новый ноутбук. Одно из главных ограничений локального AI на таких устройствах — как раз память. Снятие этого ограничения превращает Copilot+ PC из полуигрушки в реальный инструмент для работы с длинными документами и контекстом.
Длинные контексты станут нормой. Сейчас работа с большим документом в AI-помощнике — обычно платная премиум-функция. TurboQuant делает её дешёвой. Это значит, что «кидать в AI контракт на 200 страниц и просить разобраться» скоро станет стандартной, а не элитной возможностью.
Что TurboQuant НЕ делает
Коротко о границах. Чтобы не попасть под волну преувеличений, которые неизбежно пойдут в ближайшие месяцы.
TurboQuant не делает нейросети «умнее». Модель после его применения отвечает ровно так же, как до. Больше памяти — не равно лучше понимает.
TurboQuant не ускоряет обучение моделей. Это только про то, как модель работает во время общения с пользователем — не про её создание.
TurboQuant не заменяет квантизацию моделей (int4, int8 — когда сжимают саму нейросеть). Это дополнение к ней, а не замена. Реальная экономия получается, когда применяют и то, и другое.
TurboQuant — пока научная статья, а не готовый продукт. Google не выпустил официального кода или библиотеки. Независимые разработчики уже построили рабочие реализации по математике из статьи — версии на PyTorch, MLX (Apple Silicon) и C/CUDA для llama.cpp. Это ранние экспериментальные реализации, не продакшн-инструменты Stark Insider. Массово появится в продуктах во второй половине 2026 — 2027 годах.
Как это устроено — в двух абзацах
Глубоко в технику лезть не будем, но общий принцип стоит понять.
Представьте, что вам нужно передать координаты точки в пространстве, но вы можете написать только три цифры вместо пятидесяти. Обычный подход — округлить и потерять точность. TurboQuant делает хитрее. Он берёт все координаты, особым образом поворачивает их в пространстве, после чего оказывается, что они распределены очень ровно — и каждую координату можно закодировать отдельно, без больших потерь. Потом применяется второй этап — дополнительное исправление ошибок с помощью одного бита на координату.
Математически это красиво: TurboQuant достигает почти оптимальной степени искажения (в пределах малого константного множителя примерно 2,7 от теоретической нижней границы) arXiv. То есть лучше уже почти невозможно — упёрлись в потолок, заданный теорией информации.
Короткий вывод
TurboQuant — не революция в самом AI, но серьёзная революция в экономике AI. Он не делает нейросети умнее, но делает их в разы дешевле в обслуживании и позволяет им работать на более слабом железе.
Для обычного пользователя это значит три вещи: AI станет дешевле, AI чаще будет работать прямо на вашем устройстве, длинные контексты (большие документы, многочасовые переписки) перестанут быть дорогой премиум-функцией.
А для рынка это значит, что прогнозы «миру нужно триллионы долларов вложить в память для AI» больше не выглядят бесспорными. Иногда математическая статья на 20 страниц меняет расклад сильнее, чем годы строительства дата-центров.
Презентация пройдёт на конференции ICLR в Рио-де-Жанейро 25 апреля 2026 года. Следите за новостями — реальное влияние TurboQuant на продукты мы увидим в ближайшие месяцы.
Источники
- Google Research, официальный блог-пост о TurboQuant (research.google/blog/turboquant)
- Научная статья на arXiv: 2504.19874 «TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate»
- VentureBeat, разбор экономического эффекта TurboQuant (март 2026)
- Tom's Hardware, технический обзор и бенчмарки на NVIDIA H100
- CNBC, реакция рынка памяти: падение акций SK Hynix, Samsung, Micron
- Hackaday, независимый технический разбор алгоритма
А вы пользуетесь AI-помощниками регулярно? Что замечаете по динамике цен на подписки — дешевеют или дорожают со временем?