При поддержке Solidigm. Пока инференс-нагрузки эволюционируют из разрозненных вопросов-ответов в постоянные многошаговые агентные системы, наличие GPU перестало быть главным узким местом. Узкое место сместилось с вычислительной мощности на контекст, утверждает Джефф Харторн, ведущий исследователь AI в Solidigm. «Почему управление контекстом стало основным тормозом — более критичным, чем доступность GPU или эффективность вычислений — вот вопрос 2026 года, — говорит Харторн. — GPU стали значительно дешевле на флопс. Модели архитектур и движки инференса стали намного эффективнее. Но контекст растет быстрее всего этого. Персистентное состояние, которое должно существовать между сессиями, выросло еще быстрее самого контекста». Происходит это на фоне резкого расширения контекстных окон — отдельные входные данные стали куда больше. Агентные AI-системы цепляют десятки или сотни вызовов моделей, каждый из которых генерирует состояние, которое нужно отслеживать. А предприятия требуют, чтобы со
📰 AI уперся в стену памяти: почему GPU больше не главный тормоз, и как контекстная память спасет инференс
СегодняСегодня
1
2 мин