Microsoft выложила в open source фреймворк, который запускает LLM на 100 миллиардов параметров… на обычном CPU. Без GPU. Проект называется BitNet — и он делает то, что ещё недавно считалось невозможным. Никаких облаков. Никаких серверов за тысячи долларов. Обычный ноутбук — и модель уровня 100B работает со скоростью чтения человека. Как это вообще возможно? Практически все современные LLM хранят веса модели в формате 32-битных или 16-битных чисел. BitNet делает радикально другой шаг. Он использует 1.58 бита на параметр. Вес может быть только трёх типов: • -1 • 0 • +1 То есть тернарная модель. Без плавающей точки. Без дорогих матричных операций. Фактически модель начинает работать на простых целочисленных операциях, под которые CPU и так оптимизирован. Что получается на практике: — модель 100B параметров работает на одном CPU — скорость 5–7 токенов в секунду — 2.3–6.1x быстрее, чем llama.cpp на x86 — на 82% меньше энергопотребление — на ARM (MacBook) ускорение 1.3–5x — потреб