Google представила алгоритм компрессии TurboQuant для больших языковых моделей: компания заявляет, что он может значительно снизить использование памяти у LLM и одновременно повысить скорость работы. Фокус — на длинных контекстах, где ограничения по памяти часто наступают раньше, чем по вычислениям. Если упростить, TurboQuant пытается сделать key-value cache тем, чем он и задуман: «высокоскоростной цифровой шпаргалкой», которая экономит повторные вычисления. Проблема в том, что эта «шпаргалка» хранит высокоразмерные векторы и быстро раздувает потребление памяти. Во время генерации текста LLM постоянно переиспользуют промежуточные данные. Для этого и нужен key-value cache: он хранит ключи и значения attention, чтобы модель не пересчитывала одно и то же на каждом токене. ❗️ ПОДПИСЫВАЙСЯ НА НАШ КАНАЛ В ДЗЕНЕ И ЧИТАЙ КРУТЫЕ СТАТЬИ БЕСПЛАТНО Но по мере роста моделей и длины контекста этот кэш начинает «съедать» память ускорителя. И это бьёт по скорости и по доступности развёртывания: если п
Google TurboQuant снижает расход памяти LLM и повышает скорость работы
30 марта30 мар
3 мин