В марте 2026 года мир ИИ столкнулся с настоящим «RAM апокалипсис» — глобальным дефицитом оперативной памяти. Дата-центры для искусственного интеллекта пожирают до 70 % всего производства высококачественной DRAM, цены на модули памяти взлетели на 50–200 %, а производители вроде Samsung, SK Hynix и Micron переориентировали мощности на серверные чипы HBM. И вот Google Research наносит неожиданный удар по кризису. Компания представила TurboQuant — алгоритм сжатия памяти, который сокращает объём оперативной памяти, необходимой ИИ-моделям, минимум в 6 раз без потери точности и даже ускоряет работу до 8 раз. Современные большие языковые модели (LLM) работают по принципу внимания (attention). Чтобы не пересчитывать всё заново для каждого нового токена, модель сохраняет промежуточные результаты — ключевые (Key) и значимые (Value) векторы — в специальном буфере, который называется KV-кэш. При длинном контексте (сотни тысяч токенов) этот кэш может занимать десятки гигабайт оперативной памяти на о
Google представила TurboQuant: новая технология, которая уменьшает потребление оперативной памяти ИИ в 6 раз
29 марта29 мар
12
3 мин