4 подписчика

Нейросети-гиганты переезжают в смартфон: Как технология Ternary Bonsai взорвала рынок локального ИИ (и сэкономит нам деньги)

19 апреля19 апр

3 мин

Привет, энтузиасты технологий! На связи автор канала «YAinvest AI». Мы все привыкли, что по-настоящему умный искусственный интеллект живет где-то далеко на облачных серверах корпораций, требуя постоянного интернета и платных подписок. Например, популярная модель Qwen3-8B в оригинальном виде весит внушительные 16,38 ГБ, что делает ее запуск на обычных устройствах настоящей болью. Но на днях стартап PrismML выкатил релиз, который переворачивает игру: новую линейку моделей Ternary Bonsai. Давайте заглянем под капот этой технологии и разберемся, как разработчикам удалось запихнуть мощнейший ИИ прямо к нам в карман. 🧠 От 1-бита к троичной магии: как "похудела" нейросеть Чтобы понять масштаб прорыва, представьте нейросеть как гигантский пульт с миллиардами переключателей (весов). Обычно каждый переключатель имеет 16 бит точности, поэтому "мозг" ИИ получается таким огромным. Совсем недавно разработчики начали тестировать 1-битные модели, где тумблер можно было повернуть только в два положени

Привет, энтузиасты технологий! На связи автор канала «YAinvest AI».

Мы все привыкли, что по-настоящему умный искусственный интеллект живет где-то далеко на облачных серверах корпораций, требуя постоянного интернета и платных подписок. Например, популярная модель Qwen3-8B в оригинальном виде весит внушительные 16,38 ГБ, что делает ее запуск на обычных устройствах настоящей болью. Но на днях стартап PrismML выкатил релиз, который переворачивает игру: новую линейку моделей Ternary Bonsai.

Давайте заглянем под капот этой технологии и разберемся, как разработчикам удалось запихнуть мощнейший ИИ прямо к нам в карман.

🧠 От 1-бита к троичной магии: как "похудела" нейросеть

Чтобы понять масштаб прорыва, представьте нейросеть как гигантский пульт с миллиардами переключателей (весов). Обычно каждый переключатель имеет 16 бит точности, поэтому "мозг" ИИ получается таким огромным.

Совсем недавно разработчики начали тестировать 1-битные модели, где тумблер можно было повернуть только в два положения: -1 или +1. Но Ternary Bonsai (троичный бонсай) добавляет критически важную деталь — центральное положение, то есть «0». Этот "режим тишины" позволяет модели выражать гораздо больше нюансов, практически не увеличивая ее размер. Весь этот механизм упакован в формат, использующий всего около 1,58 бит на параметр.

📊 Результаты: Маленькая, но гениальная

Что это дает нам на практике? Старшая модель Ternary Bonsai на 8 миллиардов параметров в 2-битном упакованном формате занимает всего около 2,15 GiB (или 1,75 ГБ). Это примерно в 9 раз меньше, чем стандартные 16-битные гиганты.

Но самое удивительное — она не поглупела!

На стандартных тестах модель выбивает средний балл 75,5, обгоняя свою прошлую 1-битную версию на 5 пунктов.
По показателю "плотности интеллекта" (производительность на гигабайт памяти) Ternary Bonsai находится в абсолютно другой лиге, оставляя конкурентов далеко позади.
Несмотря на свой скромный размер в памяти, малютка сохранила выдающиеся способности в математике, кодинге и логике.

⚡ Скорость и тесты на iPhone

Самое вкусное в этом релизе — скорость инференса (вывода). Новые модели нативно работают на процессорах Apple Silicon через фреймворк MLX.

На процессоре M4 Pro модель выдает сумасшедшие 82-83 токена в секунду, что более чем в 5 раз быстрее обычных 16-битных версий.
А на смартфоне iPhone 17 Pro Max скорость генерации достигает 27 токенов в секунду.
Энергоэффективность также бьет рекорды: потребление батареи снизилось в 3-4 раза.

Мир Open-Source тоже не стоит на месте: энтузиасты с GitHub уже успешно портировали эту махину для запуска на периферийных устройствах вроде NVIDIA Jetson Orin, используя сборку MLX-CUDA.

🚀 Что дальше? Секретное комбо с TurboQuant

Сжать веса модели — это лишь половина победы. При генерации больших текстов рабочая память нейросети (KV-cache) сжирает огромные объемы видеопамяти. И здесь на сцену выходит технология TurboQuant от Google Research, которая умеет ужимать этот кэш до 3-3,5 бит на канал вообще без потери качества.

Аналитики уже подсчитали: если объединить 1-битный/троичный подход PrismML и технологию TurboQuant, результаты будут фантастическими. Монструозная модель на 235 миллиардов параметров, контекст которой обычно занимал бы свыше 460 Гигабайт, сможет поместиться в скромные 36 GiB. А это значит, что запуск сверхмощного ИИ на топовом домашнем ПК — это вопрос ближайшего будущего.

🏁 Подводим итоги

Эпоха ИИ смещается из дорогих и недоступных дата-центров прямиком в наши смартфоны и ноутбуки. Модели становятся компактнее, быстрее и абсолютно приватнее, ведь ваши данные больше не покидают устройство.

А сколько оперативной памяти на вашем рабочем компьютере или смартфоне? Хватит ли её, чтобы протестировать такую 2-гигабайтную нейросеть уже сегодня? Делитесь своими характеристиками в комментариях — с удовольствием обсудим!

Не забудьте подписаться на канал «YAinvest AI», чтобы не пропустить свежие тесты железа, разборы локальных моделей и самые горячие инсайды из мира технологий. Дальше будет только интереснее!