Найти в Дзене

ИИ только что стал локальным

Microsoft выложила в open source фреймворк, который запускает LLM на 100 миллиардов параметров… на обычном CPU. Без GPU. Проект называется BitNet — и он делает то, что ещё недавно считалось невозможным. Никаких облаков. Никаких серверов за тысячи долларов. Обычный ноутбук — и модель уровня 100B работает со скоростью чтения человека. Как это вообще возможно? Практически все современные LLM хранят веса модели в формате 32-битных или 16-битных чисел. BitNet делает радикально другой шаг. Он использует 1.58 бита на параметр. Вес может быть только трёх типов: • -1 • 0 • +1 То есть тернарная модель. Без плавающей точки. Без дорогих матричных операций. Фактически модель начинает работать на простых целочисленных операциях, под которые CPU и так оптимизирован. Что получается на практике: — модель 100B параметров работает на одном CPU — скорость 5–7 токенов в секунду — 2.3–6.1x быстрее, чем llama.cpp на x86 — на 82% меньше энергопотребление — на ARM (MacBook) ускорение 1.3–5x — потреб

ИИ только что стал локальным

Microsoft выложила в open source фреймворк, который запускает LLM на 100 миллиардов параметров… на обычном CPU. Без GPU.

Проект называется BitNet — и он делает то, что ещё недавно считалось невозможным.

Никаких облаков.

Никаких серверов за тысячи долларов.

Обычный ноутбук — и модель уровня 100B работает со скоростью чтения человека.

Как это вообще возможно?

Практически все современные LLM хранят веса модели в формате 32-битных или 16-битных чисел.

BitNet делает радикально другой шаг.

Он использует 1.58 бита на параметр.

Вес может быть только трёх типов:

• -1

• 0

• +1

То есть тернарная модель.

Без плавающей точки. Без дорогих матричных операций.

Фактически модель начинает работать на простых целочисленных операциях, под которые CPU и так оптимизирован.

Что получается на практике:

— модель 100B параметров работает на одном CPU

— скорость 5–7 токенов в секунду

— 2.3–6.1x быстрее, чем llama.cpp на x86

— на 82% меньше энергопотребление

— на ARM (MacBook) ускорение 1.3–5x

— потребление памяти меньше в 16–32 раза

Но самое интересное — качество почти не падает.

Флагманская модель BitNet b1.58 обучалась на 4 триллионах токенов и показывает результаты, сопоставимые с полноточными моделями того же размера.

То есть квантование не «ломает» модель — оно просто убирает вычислительный жир.

Что это меняет на практике?

— можно запускать ИИ полностью офлайн

— ваши данные не уходят в облако

— LLM можно запускать на телефонах, IoT и edge-устройствах

— не нужны API и облачные счета за инференс

— ИИ становится доступен даже там, где нестабильный интернет

Фреймворк работает на ARM и x86 — то есть на MacBook, Linux и Windows машинах.

Проект уже набрал 27K+ звёзд на GitHub.

И распространяется по MIT лицензии — полностью open source.

Мы постепенно приближаемся к моменту, когда ИИ перестаёт быть облачной услугой и становится обычным софтом на вашем устройстве.

Хотите — разберём, почему такие технологии могут ускорить развитие ИИ быстрее, чем сами новые модели. Поставьте реакцию, если тема интересна.

#AI #технологии #будущее #искусственныйинтеллект