Внутри каждой языковой модели есть что-то вроде блокнота для заметок. Он называется KV-кэш: туда записываются промежуточные вычисления, чтобы модель не пересчитывала одно и то же заново. Чем длиннее контекст разговора, тем толще этот блокнот, и тем дороже память на серверах. И именно здесь давно существует узкое место, которое тормозит и удорожает работу ИИ в промышленных масштабах. Google Research предложила три взаимосвязанных алгоритма, которые атакуют эту проблему с разных сторон. Главный из них — TurboQuant, который будет представлен на конференции ICLR 2026. Суть метода заключается в том, что данные в кэше хранятся в виде числовых векторов, длинных списков чисел с дробной точностью. Стандартные методы квантования заменяют точные числа грубыми приближениями, но тогда теряется точность. Плюс почти все существующие подходы вынуждены хранить дополнительные «поправочные коэффициенты» — это съедает лишний бит-полтора на каждое число и частично обнуляет выигрыш от сжатия. TurboQuant обх
Google представила прорывную технологию TurboQuant для сжатия моделей
28 марта28 мар
11
2 мин