Добавить в корзинуПозвонить
Найти в Дзене
Social Mebia Systems

Fairy2i: революция в сжатии ИИ — 2-битные модели почти без потери качества

Команда Пекинского университета представила Fairy2i — универсальный фреймворк, позволяющий сжимать большие языковые модели до 2 бит на параметр без существенной потери точности. Это открывает путь к запуску современных ИИ даже на смартфонах и других маломощных устройствах. В чём суть Fairy2i? Главная инновация — преобразование обычных (реальных) весов модели в комплексные (с использованием мнимых чисел), что позволяет использовать более плотное и информативное 2-битное кодирование. Вместо традиционного подхода, требующего полного переобучения модели, Fairy2i позволяет напрямую конвертировать уже готовые веса (например, LLaMA) в новый формат — быстро, без потери исходной точности. Ключевые технологии: Генерализация весов: любой слой с чётным числом параметров можно без потерь переписать в комплексной форме, что даёт старт для дальнейшей эффективной квантования. Фазовая 2-битная квантование: используются четыре комплексных значения {+1, -1, +i, -i}, что обеспеч

Команда Пекинского университета представила Fairy2i — универсальный фреймворк, позволяющий сжимать большие языковые модели до 2 бит на параметр без существенной потери точности. Это открывает путь к запуску современных ИИ даже на смартфонах и других маломощных устройствах.

В чём суть Fairy2i?

Главная инновация — преобразование обычных (реальных) весов модели в комплексные (с использованием мнимых чисел), что позволяет использовать более плотное и информативное 2-битное кодирование. Вместо традиционного подхода, требующего полного переобучения модели, Fairy2i позволяет напрямую конвертировать уже готовые веса (например, LLaMA) в новый формат — быстро, без потери исходной точности.

Ключевые технологии:

  • Генерализация весов: любой слой с чётным числом параметров можно без потерь переписать в комплексной форме, что даёт старт для дальнейшей эффективной квантования.
  • Фазовая 2-битная квантование: используются четыре комплексных значения {+1, -1, +i, -i}, что обеспечивает максимальную плотность информации на бит.
  • Рекурсивная остаточная квантование: ошибки от первого этапа сжатия дополнительно кодируются ещё одной 2-битной квантой, что позволяет почти полностью устранить потери точности.

Вычисления без умножения:
Благодаря особенностям комплексного кодирования, все операции в процессе вывода (инференса) сводятся к сложению, вычитанию и обмену данными, что резко ускоряет работу на слабых устройствах.

Результаты: почти как FP16, но в 8 раз компактнее

На примере LLaMA-2 7B Fairy2i (2-бит) показал перплексию 7.85 на C4 (против 6.63 у FP16) и среднюю точность 62% на zero-shot задачах (против 64.7% у FP16). Это лучший результат среди всех известных 2-битных методов и даже превосходит некоторые 3-битные решения.

Почему это важно?

  • Модели можно запускать на телефонах, в авто, на edge-устройствах — без потери качества.
  • Нет необходимости в переобучении: можно взять любую существующую модель и быстро перевести её в 2-битный формат.
  • Минимальные вычислительные требования: inference без умножений, параллельная обработка, минимальная задержка.

Перспективы

Fairy2i уже доступен в открытом доступе (GitHub, HuggingFace, Modelscope). Авторы уверены, что с увеличением объёма данных для обучения и развитием комплексных представлений, такие методы позволят не только догнать, но и превзойти по точности классические “тяжёлые” модели.

Ссылки:
arXiv | HuggingFace | GitHub | Modelscope

Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/