Добавить в корзинуПозвонить
Найти в Дзене
DigiNews

Запуск моделей ИИ превращается в битву за память

Когда речь заходит о стоимости инфраструктуры ИИ, обычно акцент делают на Nvidia и GPU — но память становится всё более важной частью картины. Цены на DRAM за год выросли в семь раз, делая оптимизацию памяти критически важной для снижения расходов. — techcrunch.com Когда речь заходит о стоимости инфраструктуры ИИ, обычно акцент делают на Nvidia и GPU — но память становится всё более важной частью картины. Пока гипермасштабные провайдеры готовятся инвестировать миллиарды долларов в новые дата‑центры, цена на микросхемы DRAM выросла примерно в 7 раз за последний год. В то же время развивается дисциплина по оркестровке всей этой памяти, чтобы нужные данные попадали к нужному агенту в нужный момент. Компании, которым это под силу, смогут выполнять те же запросы, используя меньше токенов, что может стать разницей между банкротством и выживанием. Полупроводниковый аналитик Дэн О’Лафлин предлагает интересный взгляд на важность микросхем памяти в своём Substack, где он беседует с Валом Беркови

Когда речь заходит о стоимости инфраструктуры ИИ, обычно акцент делают на Nvidia и GPU — но память становится всё более важной частью картины. Цены на DRAM за год выросли в семь раз, делая оптимизацию памяти критически важной для снижения расходов. — techcrunch.com

Когда речь заходит о стоимости инфраструктуры ИИ, обычно акцент делают на Nvidia и GPU — но память становится всё более важной частью картины. Пока гипермасштабные провайдеры готовятся инвестировать миллиарды долларов в новые дата‑центры, цена на микросхемы DRAM выросла примерно в 7 раз за последний год.

В то же время развивается дисциплина по оркестровке всей этой памяти, чтобы нужные данные попадали к нужному агенту в нужный момент. Компании, которым это под силу, смогут выполнять те же запросы, используя меньше токенов, что может стать разницей между банкротством и выживанием.

Полупроводниковый аналитик Дэн О’Лафлин предлагает интересный взгляд на важность микросхем памяти в своём Substack, где он беседует с Валом Берковичем, chief AI officer в Weka. Оба они — специалисты по полупроводникам, поэтому внимание сосредоточено больше на чипах, чем на более широкой архитектуре; последствия для программного обеспечения ИИ также весьма значимы.

Меня особенно поразил следующий отрывок, в котором Беркович рассматривает растущую сложность документации Anthropic по prompt‑caching:

Сигнал — это страница ценообразования Anthropic по кэшированию запросов. Шесть‑семь месяцев назад она была очень простой, особенно когда запускался Claude Code — просто «используйте кэш, это дешевле». Сейчас это уже энциклопедия советов, сколько именно записей в кэш предоплатить. Есть 5‑минутные уровни, которые распространены в отрасли, и 1‑часовые уровни — и ничего выше. Это важный сигнал. Затем, конечно, появляются различные арбитражные возможности вокруг цены чтения кэша в зависимости от того, сколько записей в кэш вы уже предкупили.

Вопрос здесь — насколько долго Claude удерживает ваш запрос в кэш‑памяти: можно оплатить 5‑минутное окно или заплатить больше за часовое. Доступ к данным, остающимся в кэше, гораздо дешевле, так что при правильном управлении можно сэкономить огромные суммы. Есть подводный камень: каждый новый кусок данных, добавленный к запросу, может вытеснить что‑то другое из окна кэша.

Это сложная тема, но вывод прост: управление памятью в моделях ИИ станет ключевым фактором развития ИИ. Компании, которые освоят её, займут лидирующие позиции.

И в этой новой сфере ещё много возможностей. В октябре я писал о стартапе TensorMesh, работающем над слоем стека, известным как оптимизация кэша.

Возможности есть и в других частях стека. Например, ниже по стеку стоит вопрос, как дата‑центры используют различные типы памяти. (В интервью есть интересное обсуждение, когда используют DRAM вместо HBM, хотя это довольно глубокое погружение в детали железа.) Выше по стеку конечные пользователи ищут способы структурировать свои «ройки» моделей, чтобы воспользоваться общим кэшем.

По мере того как компании совершенствуют оркестровку памяти, им потребуется меньше токенов, а инференс станет дешевле. Тем временем модели становятся эффективнее в обработке каждого токена, что ещё сильнее снижает стоимость. По мере снижения цен на серверы многие приложения, пока невыгодные, начнут двигаться к прибыльности.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Russell Brandom

Оригинал статьи