1809 подписчиков

PrismML представила энергоэффективную «1-bit LLM», стремясь освободить ИИ от «облака»

3 дня назад3 дня назад

3 мин

Модель Bonsai 8B от PrismML конкурентоспособна с другими моделями 8B, но при этом в 14 раз меньше и в 5 раз энергоэффективнее. — theregister.com AI-стартап PrismML, вышедший из Калифорнийского технологического института (Caltech), представил 1-битовую большую языковую модель, которая превосходит по производительности более «тяжелые» аналоги. Ожидается, что это улучшит эффективность и жизнеспособность ИИ на мобильных устройствах, а также найдет применение в других областях. Модель, получившая название Bonsai 8B, отличается небольшим размером и высокой скоростью работы при скромном потреблении энергии, а ее показатели в бенчмарках сопоставимы с гораздо более крупными моделями. «Наше первое подтверждение — это 1-битовая Bonsai 8B, 1-битовая модель, которая занимает 1,15 ГБ памяти и обеспечивает более чем десятикратную плотность интеллекта по сравнению с аналогами полной точности», — заявила компания в посте в социальной сети. «Она в 14 раз меньше, в 8 раз быстрее и в 5 раз энергоэффективн

Модель Bonsai 8B от PrismML конкурентоспособна с другими моделями 8B, но при этом в 14 раз меньше и в 5 раз энергоэффективнее. — theregister.com

AI-стартап PrismML, вышедший из Калифорнийского технологического института (Caltech), представил 1-битовую большую языковую модель, которая превосходит по производительности более «тяжелые» аналоги. Ожидается, что это улучшит эффективность и жизнеспособность ИИ на мобильных устройствах, а также найдет применение в других областях.

Модель, получившая название Bonsai 8B, отличается небольшим размером и высокой скоростью работы при скромном потреблении энергии, а ее показатели в бенчмарках сопоставимы с гораздо более крупными моделями.

«Наше первое подтверждение — это 1-битовая Bonsai 8B, 1-битовая модель, которая занимает 1,15 ГБ памяти и обеспечивает более чем десятикратную плотность интеллекта по сравнению с аналогами полной точности», — заявила компания в посте в социальной сети. «Она в 14 раз меньше, в 8 раз быстрее и в 5 раз энергоэффективнее на периферийном оборудовании, оставаясь при этом конкурентоспособной с другими моделями своего класса по числу параметров».

Модели ИИ на основе архитектуры Transformer включают нейронные сети с миллионами или миллиардами весов, которые определяют силу связей между нейронами и влияют на то, как модель выполняет задачи. Эти веса устанавливаются в процессе обучения и занимают место в памяти в зависимости от используемой для их представления точности.

Модель, квантованная в формате GGUF FP16 (16 бит), займет значительно больше места, чем модель, квантованная в GGUF Q8_0 (8 бит), GGUF Q4_0 (4 бит) или GGUF Q2_K (2 бит). Это без учета метаданных и накладных расходов, которые могут увеличить фактический требуемый объем хранилища. Однако при одинаковой базовой архитектуре 16-битовые модели, как правило, работают лучше, чем модели, квантованные на более низких уровнях.

Семейство моделей Bonsai от PrismML основано на архитектуре, где «каждый вес представляется только своим знаком, {−1, +1}, в то время как для каждой группы весов хранится общий масштабный коэффициент», как объясняется в техническом документе компании [PDF], вместо 16-битного или 32-битного числа с плавающей запятой. Исследователи работают над улучшенными подходами к квантованию уже много лет, о чем свидетельствуют такие работы, как «BitNet: Bit-Regularized Deep Neural Networks» (2017) и «The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits» (2024).

Подход PrismML основан на работе профессора электротехники Caltech Бабака Хассиби и его коллег. Компания утверждает, что ее 1-битовая архитектура позволяет избежать компромиссов, которые исторически сопровождали низкобитовое квантование, в частности, плохое следование инструкциям, ошибочное многошаговое рассуждение и ненадежное использование инструментов.

«Мы потратили годы на разработку математической теории, необходимой для сжатия нейронной сети без потери ее способностей к рассуждению», — заявил Бабак Хассиби, генеральный директор и основатель PrismML. «Мы рассматриваем 1-бит не как конечную точку, а как отправную».

Хассиби утверждает, что 1-битовая архитектура компании устанавливает новую парадигму для ИИ, ориентированную на интеллект на единицу вычислительной мощности и энергии.

Чтобы побудить других мыслить в этом направлении — вспомните, как производительность на ватт стала важным показателем? — PrismML предлагает измерять плотность интеллекта, метрику, которая выгодно представляет их модели.

«Мы определяем плотность интеллекта как отрицательное значение логарифма средней частоты ошибок модели (по тому же набору бенчмарков), деленное на размер модели», — поясняет компания.

При оценке по плотности интеллекта Qwen3 8B, которая немного опережает Bonsai 8B в различных бенчмарках (MMLU Redux, MuSR, GSM8K и др.), показывает всего 0,10/ГБ плотности интеллекта, что далеко от Bonsai 8B с показателем 1,06/ГБ.

Метрики могут быть важны для маркетинга, но более значимым мерилом для моделей PrismML является их потенциал для вывода ИИ за пределы облачных дата-центров. Компания предполагает, что ее модели будут использоваться для питания агентов на устройствах, робототехники в реальном времени, защищенных корпоративных систем и других проектов, где ограничения пропускной способности памяти, энергопотребления или соответствия требованиям могут препятствовать развертыванию.

«1-битовая Bonsai 8B нативно работает на устройствах Apple (Mac, iPhone, iPad) через MLX, на GPU Nvidia через llama.cpp CUDA», — сообщает компания. «Веса модели доступны сегодня под лицензией Apache 2.0».

Также доступны две меньшие модели: 1-битовая Bonsai 4B и 1-битовая Bonsai 1.7B. ®

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Thomas Claburn

Оригинал статьи