Большие языковые модели (LLM), которые в обиходе называют нейросетями, все больше облегчают нам жизнь. Но их использование невозможно без стабильного доступа к интернету. В Принстонском университете разработали технологию сжатия массивов данных LLM, которая позволит переносить их на локальное устройство пользователя — смартфон или ноутбук — для эксплуатации без подключения к серверу. «Когда вы используете ChatGPT, любой ваш запрос отправляется на внутренние серверы OpenAI, которые обрабатывают все эти данные, и это очень дорого», — объясняет аспирант Стэнфордского инженерного факультета Раджарши Саха. По его словам, единственный способ заставить работать LLM локально — сильно сжать используемые ею данные. Исследователи разработали алгоритм сжатия CALDERA (Calibration Aware Low precision DEcomposition with low Rank Adaptation — калиброванная низкоразрядная декомпозиция с адаптацией низкого ранга), который представят на конференции по нейросетям в декабре. Подробности изложены в статье н