88,3 тыс подписчиков

Разработка «Яндекса» позволяет запускать нейросети локально на смартфонах

11 апреля 202511 апр 2025

1 мин

Совместная команда инженеров из лаборатории исследований искусственного интеллекта Yandex Research, а также специалистов ведущих университетов, включая НИУ ВШЭ, MIT, KAUST и ISTA, представила революционный метод сжатия больших языковых моделей (LLM). Он исключает необходимость в серверах и мощных GPU, позволяя запускать нейросети локально даже на смартфонах и ноутбуках. Прорыв особенно важен для тех, кто раньше не мог работать с LLM из-за затрат на оборудование. Метод быстрого сжатия позволяет эффективно использовать даже такие модели, как DeepSeek-R1 (671 млрд параметров) и Llama 4 Maverick (400 млрд параметров), что открывает новые возможности для образования, социальной сферы и независимых разработчиков. Ранее для запуска языковой модели на смартфоне или ноутбуке требовалось провести её квантизацию на дорогостоящем сервере, что занимало от нескольких часов до нескольких недель. С методом HIGGS этот процесс можно выполнить прямо на телефоне или ноутбуке за считаные минуты. Он сжимает

Прорыв особенно важен для тех, кто раньше не мог работать с LLM из-за затрат на оборудование. Метод быстрого сжатия позволяет эффективно использовать даже такие модели, как DeepSeek-R1 (671 млрд параметров) и Llama 4 Maverick (400 млрд параметров), что открывает новые возможности для образования, социальной сферы и независимых разработчиков.

Ранее для запуска языковой модели на смартфоне или ноутбуке требовалось провести её квантизацию на дорогостоящем сервере, что занимало от нескольких часов до нескольких недель. С методом HIGGS этот процесс можно выполнить прямо на телефоне или ноутбуке за считаные минуты. Он сжимает модели без дообучения и сложной настройки, сохраняя высокое качество работы. Новый способ превосходит другие популярные методы квантизации, такие как NF4 и HQQ. Решение одобрено на международной конференции NAACL 2025 и уже доступно на GitHub и Hugging Face.

В рамках долгосрочной стратегии исследователи Yandex Research опубликовали 12 научных работ по сжатию нейросетей и продолжают развивать решения, делающие ИИ менее ресурсоёмким и более массовым. В компании уже применяют HIGGS для быстрой проверки идей и прототипирования продуктов на базе сжатых моделей.

Гаджеты и электроника

5,73 млн интересуются