Google показала TurboQuant, и это важный прорыв для ИИ-инференса, но говорить о конце дефицита оперативной памяти пока слишком рано: • TurboQuant — это новый алгоритм сжатия KV-cache для больших языковых моделей • Google заявляет сокращение объёма такой памяти как минимум в 6 раз без заметной потери качества • В отдельных сценариях на H100 ускорение вычислений достигает до 8 раз • Ключевой смысл технологии в том, что нейросетям нужно меньше памяти и пропускной способности для работы с длинным контекстом • Это действительно может снизить давление на память в ИИ-серверах и дата-центрах, где KV-cache уже стал одним из главных узких мест • Но на дефицит обычной оперативной памяти для ПК, ноутбуков и смартфонов это почти не повлияет, потому что речь идёт прежде всего о памяти под ИИ-нагрузки, а не о массовом потребительском рынке • В заметном масштабе эффект от таких алгоритмов можно ждать не раньше ближайших 1–2 лет, и сначала он проявится именно в облачных ИИ-сервисах и серверной инфрастр