Память кончилась в 2026‑м, а новые заводы придут только к 2030‑му. Спасайтесь сжатием

14 мая14 мая

2 мин

Мир столкнулся с жесточайшим дефицитом памяти DRAM/HBM. Цены взлетели на 172% за год. Новая память появится не раньше 2027–2028 годов, а реальная передышка – только к 2030-му. Компании вроде OpenAI «застолбили» 40% мирового выпуска DRAM под свои нужды. В итоге память съедает 15–35% стоимости устройства – и это ещё не главная беда. Главная беда в другом: из-за нехватки памяти производителям приходится резать функции, упрощать модели ИИ, жертвовать производительностью. А это не цифра в отчёте, это потеря рынка и клиенты, которые уходят к конкурентам. Генеральный директор компании ZeroPoint Technologies говорит: Новые заводы – это хорошо, но они не спасут вас сейчас. Аппаратное сжатие памяти – это дверь в стене. Ваша ИИ-модель путешествует по памяти и каналам в сжатом виде, а перед использованием мгновенно распаковывается без потерь. Google TurboQuant, например. Но он: И будут правы. Логика сжатия занимает транзисторы. Но пропускная способность на квадратный миллиметр у логики сжатия выго

Оглавление

В чём суть технологии?
А что, так никто не делал? – Делали, но иначе.
Прорыв аппаратного сжатия в том, что оно:

Главная беда в другом: из-за нехватки памяти производителям приходится резать функции, упрощать модели ИИ, жертвовать производительностью. А это не цифра в отчёте, это потеря рынка и клиенты, которые уходят к конкурентам.

Генеральный директор компании ZeroPoint Technologies говорит:

Новые заводы – это хорошо, но они не спасут вас сейчас. Аппаратное сжатие памяти – это дверь в стене.

В чём суть технологии?

Ваша ИИ-модель путешествует по памяти и каналам в сжатом виде, а перед использованием мгновенно распаковывается без потерь.

Что сжимается?
Статические веса модели, активации, KV-кэш – всё.
Как проходит путь?
Модель лежит в памяти в сжатом виде → пересылается по шине памяти тоже сжатой → прямо перед вычислениями аппаратно распаковывается (lossless, т.е. без потери точности).
Что видит приложение?
Полную модель.
Что видит подсистема памяти?
В 2–4 раза меньше данных (типичное сжатие для ИИ-данных).
Латентность?
Ничтожная, незаметная в режиме реального времени.

А что, так никто не делал? – Делали, но иначе.

Google TurboQuant, например. Но он:

сжимает только KV-кэш (не всю модель),
lossy (теряет точность – насколько, зависит от модели),
требует переделки софта (модификации модели и рантайма).

Прорыв аппаратного сжатия в том, что оно:

Прозрачно для любого ПО – работает на уровне контроллера памяти. Никаких правок модели, фреймворков или драйверов.
Без потерь (lossless – точность та же, что и без сжатия.
Одновременно решает проблему пропускной способности и объёма памяти – вы можете запустить модель в 2 раза больше на том же бюджетном объёме памяти и при той же шине.
Экономит энергию – меньше битов бегает по шине, меньше трафика – меньше ватт. В эпоху, когда дата-центры упираются в лимиты по мощности, это золото.

А что скажут «железячники»? – Они скажут: «площадь кристалла дорогая».

И будут правы. Логика сжатия занимает транзисторы. Но пропускная способность на квадратный миллиметр у логики сжатия выгоднее, чем добавление физических DRAM-кристаллов. А интеграция занимает недели, а не годы разработки нового чипа.

То есть это IP-блок, который можно быстро вшить в существующий SoC или контроллер памяти – и получить экономию памяти и полосы без ожидания новых фабрик DRAM.

Так в чём главный прорыв?

Прорыв не в «мы умеем сжимать данные» – это умели давно. Прорыв в том, что теперь сжатие происходит на аппаратном уровне подсистемы памяти, прозрачно, без потерь, с микро-задержкой, для всех типов ИИ-данных одновременно (веса, активации, кэш). Это позволяет выиграть годы до прихода новых заводов и принципиально разрывает компромисс «большая модель ⇔ недостаточно памяти/шины».

Генеральный директор ZeroPoint Technologies ставит вопрос:

«Масштабироваться с памятью? Или масштабироваться с интеллектом?»

То есть продолжаем страдать от дефицита и кроить модели, либо внедряем умное железо – и вырываемся вперёд уже в этом продуктовом цикле, а не в следующем.

Ссылка на первоисточник: https://www.eetimes.com/the-memory-wall-is-real-here-is-the-door/

Вас также могут заинтересовать:

Эффект домино в дата-центре: как один модуль спасает миллионы транзакций

MIR - Студия разработки умных устройств (Embedded NN Lab)13 мая

Красные линии для нейросетей: как прописать этику и пределы автономности в железе

MIR - Студия разработки умных устройств (Embedded NN Lab)30 апреля

RTLS vs. 7 потерь: как реальное время убивает неэффективность

MIR - Студия разработки умных устройств (Embedded NN Lab)20 апреля