От серверных кластеров к смартфонам — революционные методы AQLM и PV-Tuning сокращают размеры нейросетей в 8 раз В эпоху, когда размеры языковых моделей измеряются триллионами параметров, исследователи Yandex Research совершили прорыв, способный перевернуть индустрию. Их методы AQLM и PV-Tuning позволяют «упаковывать» гигантские нейросети в формат, сравнимый с мобильным приложением, сохраняя 95% производительности. Это не просто оптимизация — это ключ к демократизации ИИ. Технология переосмысливает подходы к квантованию — процессу сокращения битности числовых значений. Если традиционные методы жертвовали точностью, AQLM использует аддитивные схемы, где каждая величина представляется суммой нескольких квантованных компонентов. Это напоминает сборку пазла: даже из упрощённых элементов можно воссоздать сложную картину. Результат: Параметры модели сжимаются до 2-3 бит вместо стандартных 16, уменьшая размер в 4-8 раз. Для модели Llama 2 это означает переход с 13 млрд параметров до эквивален
Сжатие ИИ без потерь: как Yandex Research переосмысливает будущее больших языковых моделей
11 апреля 202511 апр 2025
4
3 мин