Microsoft BitNet (-1,0,1 вместо 16-бит), Meta BLT (байты вместо токенов), MambaByte (500x быстрее). Зачем они убивают Transformer и как запустить на RTX 3090? Transformer мёртв? Почему все бегут от attention Transformer = вчера. 16-битные веса жрут VRAM, inference тормозит, обучение — месяцы на H100 кластерах. 2025 тренд: Linear альтернативы. Смотрим топ-3 убийц Transformer из твоего анализа: 1. BitNet b1.58 — Microsoft 1.58-bit LLM Llama-3-8B FP16: 16GB VRAM BitNet-3B: 2.3GB VRAM (10x меньше!) MMLU: 71% vs Llama-3B 68%
Как работает: Вместо FP16 весов — ternary {-1, 0, +1}. MatMul → XNOR + PopCount (битовые операции, 10x быстрее GPU). Запуск на RTX 3090: pip install bitnet from bitnet import BitLinear model = AutoModelForCausalLM.from_pretrained("microsoft/bitnet-b1.58-3B")
PyTorch 1.58: nn.Linear → BitLinear. llama.cpp уже поддерживает. Плюсы: 10x экономия VRAM, скорость как у INT4. Минусы: Пока 3B, scaling laws под вопросом. 2. BLT (Byte Latent Transformer) — Meta без токенов Llama