Ученые из Принстонского и Стэнфордского университетов представили новый алгоритм сжатия больших языковых моделей (LLM), который обещает сделать использование таких моделей более доступным, экономичным и безопасным. В своей работе исследователи предложили способ уменьшить объем данных, хранимых в таких моделях, что может снизить энергозатраты и улучшить приватность пользователей. Текущий способ работы с LLM требует отправки запросов на удаленные серверы, что дорого и требует больших вычислительных мощностей. Новый алгоритм CALDERA позволяет значительно сжать модель, уменьшив избыточность данных и точность обработки. Это дает возможность использовать сжатую модель локально на мобильных устройствах, таких как смартфоны и ноутбуки, без потери в точности выполнения задач. Основная идея алгоритма заключается в комбинировании двух технологий — «низкой точности» и «низкого ранга». Это позволяет не только снизить требования к вычислительным ресурсам, но и ускорить обработку данных, что важно дл
Создан метод сжатия больших языковых моделей для мобильных устройств
20 ноября 202420 ноя 2024
4
1 мин