11 подписчиков

🚀 Будущее LLM 2025: BitNet b1.58, MambaByte, BLT — конец эры Transformer?

23 декабря 202523 дек 2025

2 мин

Microsoft BitNet (-1,0,1 вместо 16-бит), Meta BLT (байты вместо токенов), MambaByte (500x быстрее). Зачем они убивают Transformer и как запустить на RTX 3090? Transformer мёртв? Почему все бегут от attention Transformer = вчера. 16-битные веса жрут VRAM, inference тормозит, обучение — месяцы на H100 кластерах. 2025 тренд: Linear альтернативы. Смотрим топ-3 убийц Transformer из твоего анализа: 1. BitNet b1.58 — Microsoft 1.58-bit LLM Llama-3-8B FP16: 16GB VRAM BitNet-3B: 2.3GB VRAM (10x меньше!) MMLU: 71% vs Llama-3B 68%

Как работает: Вместо FP16 весов — ternary {-1, 0, +1}. MatMul → XNOR + PopCount (битовые операции, 10x быстрее GPU). Запуск на RTX 3090: pip install bitnet from bitnet import BitLinear model = AutoModelForCausalLM.from_pretrained("microsoft/bitnet-b1.58-3B")

PyTorch 1.58: nn.Linear → BitLinear. llama.cpp уже поддерживает. Плюсы: 10x экономия VRAM, скорость как у INT4. Минусы: Пока 3B, scaling laws под вопросом. 2. BLT (Byte Latent Transformer) — Meta без токенов Llama

Microsoft BitNet (-1,0,1 вместо 16-бит), Meta BLT (байты вместо токенов), MambaByte (500x быстрее). Зачем они убивают Transformer и как запустить на RTX 3090?

Transformer мёртв? Почему все бегут от attention

Transformer = вчера. 16-битные веса жрут VRAM, inference тормозит, обучение — месяцы на H100 кластерах.

2025 тренд: Linear альтернативы. Смотрим топ-3 убийц Transformer из твоего анализа:

1. BitNet b1.58 — Microsoft 1.58-bit LLM

Llama-3-8B FP16: 16GB VRAM

BitNet-3B: 2.3GB VRAM (10x меньше!)

MMLU: 71% vs Llama-3B 68%

Как работает: Вместо FP16 весов — ternary {-1, 0, +1}.

MatMul → XNOR + PopCount (битовые операции, 10x быстрее GPU).

Запуск на RTX 3090:

pip install bitnet

from bitnet import BitLinear

model = AutoModelForCausalLM.from_pretrained("microsoft/bitnet-b1.58-3B")

PyTorch 1.58: nn.Linear → BitLinear. llama.cpp уже поддерживает.

Плюсы: 10x экономия VRAM, скорость как у INT4.

Минусы: Пока 3B, scaling laws под вопросом.

2. BLT (Byte Latent Transformer) — Meta без токенов

Llama-3: 128k vocab → 512B на токен

BLT: raw UTF-8 байты → 50% меньше данных

Гениальность: Нет токенизатора! EntropyPatcher + LocalEncoder сжимает байты → LatentTransformer.

Результат: Llama-3 качество на 50% меньше данных.

Код (PyTorch):

from blt import BltTokenizer, EntropyPatcher

encoder = LocalEncoder(dim=256) # Mamba-based

transformer = LatentTransformer(2048)

Статус: facebookresearch/blt на GitHub. Qwen 2.5 + BLT = SOTA 2025.

3. MambaByte / RWKV — State Space Models

Transformer: O(n²) attention

Mamba: O(n) linear scaling

MambaByte: токены → байты (500x быстрее)

Лидеры:

- Mamba-2: state-spaces/mamba2-2.7b

- RWKV-6-World-7B: NPC-опенсорс

- Jamba-1.5: AI21 (Transformer+Mamba hybrid)

RTX 3090 реальность:

Ollama + llama.cpp: Mamba/RWKV = 100+ t/s

Llama-3-8B Q4: 30 t/s

***

Сравнение: FP16 vs Новые архитектуры

Llama-3 FP16: VRAM (8B): 16GBб, Скорость: 30 t/s, MMLU: 68%

BitNet b1.58: VRAM (8B): 2.3GB, Скорость: 150 t/s, MMLU: 71%

MambaByte: VRAM (8B): 4GB, Скорость: 200 t/s, MMLU: 65%

BLT+Qwen: VRAM (8B): 8GB, Скорость: 80 t/s, MMLU: 72%

Вывод: BitNet = экономия железа. MambaByte = скорость. BLT = качество данных.

***

Как запустить СЕЙЧАС (RTX 3090/4090)

BitNet b1.58:

git clone https://github.com/microsoft/BitNet
pip install -r requirements.txt

python inference.py --model bitnet-b1.58-3B

MambaByte:

pip install mamba-ssm mamba-byte

ollama run mamba2-2.7b

BLT (bleeding edge):

git clone https://github.com/facebookresearch/blt
torchrun train.py --model blt-qwen2.5

***

Почему 2026 = год Linear LLM

1. VRAM кризис: GPT-5 (1.8T) не влезет в 1 H100

2. Inference bottleneck: 80% затрат = инференс

3. Edge AI: RTX 3090 > H100 кластер

Дорога к AGI: BitNet-70B + MambaByte + BLT = GPT-4 качество на домашнем ПК.

***

🔥 Планирую создать свою модель с киллер-фичами!

Основу для тренировки и инференса я уже создал (всё написали с Курсором за несколько часов с нуля, подглядывая в репозиторий llama.cpp. Сейчас собираю датасет для обучения своей кодинговой модели, которая будет идеально кодить на 1С:Предприятии 8.3 (это основная боль разрабов 1С, что LLM плохо знаю 1С).

В своём телеграм-канале расскажу и покажу, что и как дальше.

- BitNet b1.58 + MambaByte

- Киллер-фичи: ternary reasoning, byte-level RAG, XNOR attention

- Собственный агент: Cursor IDE + своя модель (0$ API)

Результат: GPT-4 качество за $0 на домашнем железе.

Так же, в моём телеграм-канале — код, гайды, live стримы по Linear LLM! В ближайшем будущем начну записывать первые скринкасты по этой теме!

Вопросы в комментах:

- BitNet пробовали? Скорость реально 10x?

- MambaByte vs RWKV — кто быстрее?

- BLT на Qwen2.5 уже тестили?