Добавить в корзинуПозвонить
Найти в Дзене

📰 AI уперся в стену памяти: почему GPU больше не главный тормоз, и как контекстная память спасет инференс

При поддержке Solidigm. Пока инференс-нагрузки эволюционируют из разрозненных вопросов-ответов в постоянные многошаговые агентные системы, наличие GPU перестало быть главным узким местом. Узкое место сместилось с вычислительной мощности на контекст, утверждает Джефф Харторн, ведущий исследователь AI в Solidigm. «Почему управление контекстом стало основным тормозом — более критичным, чем доступность GPU или эффективность вычислений — вот вопрос 2026 года, — говорит Харторн. — GPU стали значительно дешевле на флопс. Модели архитектур и движки инференса стали намного эффективнее. Но контекст растет быстрее всего этого. Персистентное состояние, которое должно существовать между сессиями, выросло еще быстрее самого контекста». Происходит это на фоне резкого расширения контекстных окон — отдельные входные данные стали куда больше. Агентные AI-системы цепляют десятки или сотни вызовов моделей, каждый из которых генерирует состояние, которое нужно отслеживать. А предприятия требуют, чтобы со

 📰 AI уперся в стену памяти: почему GPU больше не главный тормоз, и как контекстная память спасет инференс

При поддержке Solidigm. Пока инференс-нагрузки эволюционируют из разрозненных вопросов-ответов в постоянные многошаговые агентные системы, наличие GPU перестало быть главным узким местом. Узкое место сместилось с вычислительной мощности на контекст, утверждает Джефф Харторн, ведущий исследователь AI в Solidigm.

«Почему управление контекстом стало основным тормозом — более критичным, чем доступность GPU или эффективность вычислений — вот вопрос 2026 года, — говорит Харторн. — GPU стали значительно дешевле на флопс. Модели архитектур и движки инференса стали намного эффективнее. Но контекст растет быстрее всего этого. Персистентное состояние, которое должно существовать между сессиями, выросло еще быстрее самого контекста».

Происходит это на фоне резкого расширения контекстных окон — отдельные входные данные стали куда больше. Агентные AI-системы цепляют десятки или сотни вызовов моделей, каждый из которых генерирует состояние, которое нужно отслеживать. А предприятия требуют, чтобы состояние инференса сохранялось между сессиями для аудита, управления и повторного использования. Эти тренды накладываются друг на друга, взвинчивая объемы контекста далеко за пределы того, на что рассчитан любой существующий уровень памяти.

«Все три процесса происходят одновременно, и каждый толкает контекстные данные и контекстную память в стратосферу гораздо быстрее, чем мы привыкли», — добавляет Эйс Страйкер, директор по маркетингу AI и экосистемы Solidigm.

Решение — выделенный контекстный уровень, который встраивается между памятью GPU и сетевым хранилищем. Это слой высокопроизводительной, плотной флэш-памяти, спроектированной специально для хранения и отдачи KV-кэша — данных инференса, позволяющих моделям сохранять и переиспользовать контекст, а также данные поиска на скорости инференса. Nvidia формализовала эту архитектуру под названием CMX. Производители систем хранения, включая Solidigm, строят SSD, оптимизированные под эту нагрузку.

«Хранилище никогда не было первым, о чем думали при планировании корпоративной инфраструктуры, — говорит Страйкер. — Во многом это была относительно небольшая статья расходов по сравнению с вычислениями, и это был просто товар. Выбирали самый дешевый доллар за гигабайт — и все. Но теперь, если хранилище не тянет, страдает ROI, и это напрямую бьет по прибыли».

Почему архитектура хранилища для AI-инференса должна отличаться от тренировочной

Архитектура, на которой сегодня держатся AI-системы, в значительной степени унаследована от тренировочных пайплайнов. Тренировка — процесс последовательный, с доминированием записи: данные движутся большими блоками к объектному хранилищу и обратно. Иерархия — высокопроизводительная память на GPU, быстрый NVMe в сервере и сетевое хранилище — неплохо справляется с этой задачей.

Инференс — совсем другая история. Его I/O-профиль мелкозернистый, чувствительный к задержкам и все более зависим от состояния. Данные KV-кэша и данные поиска имеют разные паттерны доступа, но обоим нужно, чтобы их быстро отдавали и переиспользовали между взаимодействиями. Ни один из вариантов не укладывается ни в дорогую и ограниченную по объему высокопроизводительную память GPU, ни в традиционное блочное хранилище, которое никогда не проектировалось для активных инференс-нагрузок....

🔗 Полный текст статьи читайте у нас на сайте: Читать на TechLoot

📢 ТехноЛут