Совместная команда инженеров из лаборатории исследований искусственного интеллекта Yandex Research, а также специалистов ведущих университетов, включая НИУ ВШЭ, MIT, KAUST и ISTA, представила революционный метод сжатия больших языковых моделей (LLM). Он исключает необходимость в серверах и мощных GPU, позволяя запускать нейросети локально даже на смартфонах и ноутбуках. Прорыв особенно важен для тех, кто раньше не мог работать с LLM из-за затрат на оборудование. Метод быстрого сжатия позволяет эффективно использовать даже такие модели, как DeepSeek-R1 (671 млрд параметров) и Llama 4 Maverick (400 млрд параметров), что открывает новые возможности для образования, социальной сферы и независимых разработчиков. Ранее для запуска языковой модели на смартфоне или ноутбуке требовалось провести её квантизацию на дорогостоящем сервере, что занимало от нескольких часов до нескольких недель. С методом HIGGS этот процесс можно выполнить прямо на телефоне или ноутбуке за считаные минуты. Он сжимает
Разработка «Яндекса» позволяет запускать нейросети локально на смартфонах
11 апреля 202511 апр 2025
36
1 мин