Добавить в корзинуПозвонить
Найти в Дзене
4pda.to

Разработка «Яндекса» позволяет запускать нейросети локально на смартфонах

Совместная команда инженеров из лаборатории исследований искусственного интеллекта Yandex Research, а также специалистов ведущих университетов, включая НИУ ВШЭ, MIT, KAUST и ISTA, представила революционный метод сжатия больших языковых моделей (LLM). Он исключает необходимость в серверах и мощных GPU, позволяя запускать нейросети локально даже на смартфонах и ноутбуках. Прорыв особенно важен для тех, кто раньше не мог работать с LLM из-за затрат на оборудование. Метод быстрого сжатия позволяет эффективно использовать даже такие модели, как DeepSeek-R1 (671 млрд параметров) и Llama 4 Maverick (400 млрд параметров), что открывает новые возможности для образования, социальной сферы и независимых разработчиков. Ранее для запуска языковой модели на смартфоне или ноутбуке требовалось провести её квантизацию на дорогостоящем сервере, что занимало от нескольких часов до нескольких недель. С методом HIGGS этот процесс можно выполнить прямо на телефоне или ноутбуке за считаные минуты. Он сжимает
   Разработка «Яндекса» позволяет запускать нейросети локально на смартфонах
Разработка «Яндекса» позволяет запускать нейросети локально на смартфонах

Совместная команда инженеров из лаборатории исследований искусственного интеллекта Yandex Research, а также специалистов ведущих университетов, включая НИУ ВШЭ, MIT, KAUST и ISTA, представила революционный метод сжатия больших языковых моделей (LLM). Он исключает необходимость в серверах и мощных GPU, позволяя запускать нейросети локально даже на смартфонах и ноутбуках.

-2

Прорыв особенно важен для тех, кто раньше не мог работать с LLM из-за затрат на оборудование. Метод быстрого сжатия позволяет эффективно использовать даже такие модели, как DeepSeek-R1 (671 млрд параметров) и Llama 4 Maverick (400 млрд параметров), что открывает новые возможности для образования, социальной сферы и независимых разработчиков.

Ранее для запуска языковой модели на смартфоне или ноутбуке требовалось провести её квантизацию на дорогостоящем сервере, что занимало от нескольких часов до нескольких недель. С методом HIGGS этот процесс можно выполнить прямо на телефоне или ноутбуке за считаные минуты. Он сжимает модели без дообучения и сложной настройки, сохраняя высокое качество работы. Новый способ превосходит другие популярные методы квантизации, такие как NF4 и HQQ. Решение одобрено на международной конференции NAACL 2025 и уже доступно на GitHub и Hugging Face.

В рамках долгосрочной стратегии исследователи Yandex Research опубликовали 12 научных работ по сжатию нейросетей и продолжают развивать решения, делающие ИИ менее ресурсоёмким и более массовым. В компании уже применяют HIGGS для быстрой проверки идей и прототипирования продуктов на базе сжатых моделей.