Революция от Яндекса: Мощные ИИ-модели без серверов теперь на любом устройстве

17 апреля 202517 апр 2025

1 мин

Совместная команда инженеров Yandex Research и ведущих мировых университетов представила новаторский метод сжатия больших языковых моделей (LLM), получивший название HIGGS. Уникальность разработки заключается в том, что она позволяет запускать сложнейшие нейросети локально на обычных смартфонах и ноутбуках, полностью исключая потребность в дорогостоящих серверах и мощных графических процессорах. Этот прорыв открывает двери к использованию передовых LLM для широкого круга пользователей, включая тех, кто ранее не мог себе этого позволить из-за высоких затрат на оборудование. Метод HIGGS обеспечивает быстрое и эффективное сжатие даже таких гигантских моделей, как DeepSeek-R1 (671 млрд параметров) и Llama 4 Maverick (400 млрд параметров), что создает новые перспективы для образования, социальной сферы и независимых разработчиков. Ранее для запуска LLM на мобильном устройстве или ноутбуке требовалась трудоемкая и дорогостоящая процедура квантизации на мощном сервере, занимавшая от нескольки

Этот прорыв открывает двери к использованию передовых LLM для широкого круга пользователей, включая тех, кто ранее не мог себе этого позволить из-за высоких затрат на оборудование. Метод HIGGS обеспечивает быстрое и эффективное сжатие даже таких гигантских моделей, как DeepSeek-R1 (671 млрд параметров) и Llama 4 Maverick (400 млрд параметров), что создает новые перспективы для образования, социальной сферы и независимых разработчиков.

Ранее для запуска LLM на мобильном устройстве или ноутбуке требовалась трудоемкая и дорогостоящая процедура квантизации на мощном сервере, занимавшая от нескольких часов до нескольких недель. С появлением HIGGS этот процесс занимает считанные минуты и может быть выполнен непосредственно на пользовательском устройстве. Метод сжимает модели без необходимости дополнительного обучения и сложной настройки, при этом сохраняя высокое качество их работы. Новый способ превосходит по эффективности другие распространенные методы квантизации, такие как NF4 и HQQ. Разработка уже получила признание на международной конференции NAACL 2025 и опубликована в открытом доступе на GitHub и Hugging Face. В рамках своей долгосрочной стратегии Yandex Research продолжает работу над решениями, делающими искусственный интеллект более доступным и менее ресурсоемким.