20 подписчиков

Nvidia BlueField-4 STX: ИИ тормозит не из-за модели. Из-за хранилища

ВчераВчера

4 мин

Ты наверняка видел это вживую: ИИ‑агент бодро начинает задачу, делает пару шагов… а потом как будто «подвисает». Отвечает медленнее, теряет нить, начинает заново уточнять то, что уже обсуждали. Обычно мы ругаем модель. А Nvidia на GTC 2026 говорит: ребята, это часто не модель. Это хранилище не успевает. И вот под это Nvidia анонсировала BlueField‑4 STX — модульную «эталонную» архитектуру, которая добавляет между GPU и обычными дисками отдельный слой памяти для контекста. Заявления громкие: в 5 раз больше пропускной способности по токенам, в 4 раза лучше энергоэффективность и в 2 раза быстрее загрузка данных по сравнению с классическими хранилищами на CPU. Внутри больших языковых моделей есть штука под названием KV cache. Звучит как налоговая форма, но смысл простой: это «записная книжка» промежуточных вычислений, которые модель уже сделала, чтобы не пересчитывать одно и то же на каждом шаге. Когда агент работает долго, делает много шагов, вызывает инструменты, возвращается к предыдущим

Оглавление

Что именно тормозит: KV cache, то есть «рабочая память» агента
Идея STX: вставить «прослойку контекста» между GPU и диском
Софт тоже завезли: DOCA Memo

И вот под это Nvidia анонсировала BlueField‑4 STX — модульную «эталонную» архитектуру, которая добавляет между GPU и обычными дисками отдельный слой памяти для контекста. Заявления громкие: в 5 раз больше пропускной способности по токенам, в 4 раза лучше энергоэффективность и в 2 раза быстрее загрузка данных по сравнению с классическими хранилищами на CPU.

Что именно тормозит: KV cache, то есть «рабочая память» агента

Внутри больших языковых моделей есть штука под названием KV cache. Звучит как налоговая форма, но смысл простой: это «записная книжка» промежуточных вычислений, которые модель уже сделала, чтобы не пересчитывать одно и то же на каждом шаге.

Когда агент работает долго, делает много шагов, вызывает инструменты, возвращается к предыдущим выводам — этот кэш раздувается.

Если за ним приходится ходить через обычное хранилище — задержки растут, GPU простаивают, скорость ответа падает. И у тебя ощущение, что агент внезапно устал жить.

STX целится именно в этот узкий участок.

Идея STX: вставить «прослойку контекста» между GPU и диском

Ключевой ход Nvidia — выделенный слой context memory, который хранит и отдаёт KV cache быстрее, чем типовое NAS/объектное хранилище.

Архитектура построена вокруг нового варианта BlueField‑4, заточенного под хранение: там вместе живут процессорная часть Nvidia (Vera CPU) и сетевой ускоритель (ConnectX‑9 SuperNIC), плюс работа через Ethernet‑сеть Spectrum‑X. Программируется это через платформу DOCA (по сути, набор инструментов, чтобы партнёры могли «допиливать» поведение системы под ИИ‑нагрузки).

Первой реализацией на уровне стойки называется Nvidia CMX — платформа context memory storage. Её задача — как бы «расширять» память GPU быстрым контекстным слоем, чтобы KV cache не катался туда‑сюда через универсальное хранилище.

И важный момент: STX Nvidia не продаёт как готовую коробку. Это референс‑архитектура: схема, рекомендации по железу и софту, чтобы партнёры собрали свои продукты.

Софт тоже завезли: DOCA Memo

По словам Nvidia, STX идёт не только как железный конструктор. Вместе с ним партнёрам дают и программную основу. В DOCA добавляют компонент, который в брифинге называли DOCA Memo — чтобы оптимизировать хранение именно под «агентные» сценарии.

Nvidia хочет, чтобы производители хранилищ могли не просто ставить быстрые диски, а настраивать логику работы под то, как ИИ читает и пишет контекст.

Кто в теме: от «старой школы» до ИИ‑облаков

Список партнёров выглядит как встреча выпускников рынка хранилищ — крупные производители железа и облачные провайдеры, от корпоративных гигантов до специализированных ИИ-облаков. Сигнал понятный: Nvidia продвигает STX не как игрушку для избранных, а как шаблон для всех кому нужно гонять многошаговых агентов в проде.

Сигнал тут простой: Nvidia продвигает STX не как «игрушку для гиперскейлеров», а как шаблон для всех, кому надо гонять многошаговый inference в проде. А это, судя по тренду на агентов, скоро будет почти у каждого крупного бизнеса — хотя бы в виде внутренних помощников.

Первые платформы от партнёров ожидаются во второй половине 2026 года.

Почему Nvidia приплела IBM и причём тут Nestlé

Отдельно в новости мелькает IBM: она одновременно в списке партнёров по STX и ещё Nvidia выбрала IBM Storage Scale System 6000 как основу для своей GPU‑ориентированной аналитической инфраструктуры.

Плюс IBM и Nvidia показали ускорение на аналитике (не на агентном инференсе, но всё равно показательно): в proof‑of‑concept с Nestlé обновление витрины данных сократилось с 15 до 3 минут, IBM заявила 83% экономии и 30x улучшение price‑performance.

Это не прямое доказательство «агенты полетят в 5 раз быстрее». Но отлично иллюстрирует мысль Nvidia: упираемся не только в GPU, а в слой данных. И когда этот слой ускоряешь, цифры в проде становятся неприятно конкретными.

Главная мысль: хранилище для ИИ больше не «потом разберёмся»

Раньше как было: купили GPU, поставили что-то «нормальное» для файлов и объектов — и погнали. А теперь у агентов появляется настоящая рабочая память (KV cache), и ей нужна скорость, сравнимая с темпом инференса. Универсальные хранилища под это не проектировали.

STX — это попытка сделать хранение контекста отдельной, первоклассной частью инфраструктуры. Правда, с оговоркой: цифры 5x/4x/2x сравнивают с “традиционным CPU‑хранилищем”, но Nvidia не раскрыла точную базовую конфигурацию. Так что перед закупками придётся задавать скучные вопросы про стенды и условия тестов. Да, те самые вопросы, от которых маркетинг начинает кашлять.

А в целом ощущение такое: если раньше ИИ‑инфраструктура была «GPU и немного остального», то теперь это всё больше похоже на кухню в час пик. Плита у тебя мощная, повар звёздный, а вот холодильник где-то в подвале и открывается по талонам в МФЦ. STX пытается поставить холодильник рядом с плитой — и внезапно ужин готовится быстрее.