Google представил TurboQuant — алгоритм, который снижает использование памяти для больших языковых моделей (LLM) в 6 раз. Это особенно важно в условиях нехватки оперативной памяти и растущих цен на компоненты. TurboQuant направлен на уменьшение размера кеша ключ-значение, который играет ключевую роль в работе LLM, позволяя моделям быстро получать доступ к необходимым данным. Благодаря нему стало возможным сократить использование памяти, не ухудшая качество результатов. В некоторых тестах TurboQuant продемонстрировал рост производительности на 8 раз при сокращении памяти в 6 раз без потери точности. Аlгоритм работает по двум основным этапам. Сначала используется PolarQuant, который переводит векторы этих из стандартных XYZ координат в полярные. Это позволяет сохранить важные характеристики в меньших объемах. Второй шаг включает применение метода коррекции ошибок, что позволяет снизить остаточные погрешности и улучшить точность оценок важности данных. Для разработчиков в России и СНГ это
Google представил TurboQuant — алгоритм, который снижает память LLM в 6 раз
25 марта25 мар
1 мин