Российские ученые из Яндекса и НИУ ВШЭ совместно с MIT, ISTA и KAUST совершили прорыв в оптимизации LLM
Лаборатория исследований ИИ Yandex Research совместно с Массачусетским технологическим институтом (MIT), ВШЭ, KAUST и ISTA разработал метод HIGGS — новый способ сжатия больших языковых моделей (LLM)
Они представят его на одной из крупнейших в мире конференций по искусственному интеллекту — NAACL (The North American Chapter of the Association for Computational Linguistics), которая пройдёт с 29 апреля по 4 мая 2025 года в Альбукерке, Нью-Мексико, США
Наряду с Яндексом в ней будут участвовать такие компании и вузы, как Google, Microsoft Research, Гарвардский университет и другие
Статью уже цитировали американская компания Red Hat AI, Пекинский университет, Гонконгский университет науки и технологии, Фуданьский университет и другие
Что уже известно? Квантовать модели вроде Llama 4 (400B) или DeepSeek-R1 (671B) теперь можно прямо на локальном устройстве (смартфоне или ноутбуке) — быстро, дёшево и с сохранением качества
Что это значит на практике?
Раньше квантизация требовала дорогих серверов с GPU и занимала часы или даже недели
С HIGGS она происходит за минуты, без дообучения и сложной оптимизации
Это демократизирует использование LLM: : стартапы, научные команды, образовательные проекты и независимые разработчики получают доступ к тем же возможностям, что раньше были только у корпораций
Метод HIGGS уже доступен разработчикам и исследователям на Hugging Face и GitHub, а научную статью про него можно прочитать на arXiv
Новый способ квантизации даёт больше возможностей для использования LLM в различных областях, особенно в тех, где ресурсы ограничены — например, в образовании или социальной сфере