Если ты последние пару лет хоть раз открывал ChatGPT или любой похожий сервис, ты уже пользовался «трансформерами» — той самой архитектурой из статьи Google 2017 года Attention Is All You Need. Она умеет «внимательно перечитывать» контекст и решать, какие слова в тексте важнее.
Проблема в том, что трансформер — это как человек, который на каждом новом сообщении в чате заново перечитывает всю переписку с самого начала. Умно, но дорого. И чем длиннее разговор, тем больнее кошельку (и GPU).
И вот на сцену выходит Mamba-3 — свежая версия архитектуры Mamba от той же команды исследователей (Альберт Гу, Три Дао и коллеги). Её выложили в open source под Apache 2.0, то есть можно использовать и в коммерческих продуктах без танцев с лицензиями.
Почему Mamba-3 вообще обсуждают
У Mamba-3 простая, почти бытовая идея: перестать делать вид, что главное — скорость обучения, и наконец сфокусироваться на том, что важнее для реальной жизни: скорость и цена работы модели «в проде».
Исследователи называют это подходом inference-first — архитектура заточена не под «как быстро натренировать», а под «как быстро отвечать пользователю».
Тут всплывает очень жизненная боль: «cold GPU». Это когда видеокарта вроде бы дорогая, мощная, вся такая с вентилятором как у вертолёта… а в момент генерации текста она часто просто ждёт, пока данные доедут из памяти, и простаивает.
Mamba — это не трансформер, а «машинка-резюме»
Mamba относится к классу SSM (State Space Models). Не пугайся названия: по смыслу это модели, которые держат не всю историю текста целиком, а сжатый «снимок памяти» — внутреннее состояние.
Представь, что трансформер хранит всю переписку пачкой скриншотов и каждый раз листает их заново. А SSM — как человек, который ведёт короткий конспект по ходу разговора и обновляет его.
За счёт этого такие модели потенциально лучше чувствуют себя на длинных последовательностях и не упираются в память так быстро.
Про «перплексию»
Модель как игрок-ставочник. Высокая perplexity — она не уверена и ставит «ну может это слово, а может то, а может вообще котики». Низкая perplexity — угадывает продолжение увереннее.
Фишка Mamba-3 в том, что она сохраняет качество на уровне Mamba-2, но с вдвое меньшим внутренним состоянием. То есть «ум» примерно тот же, а возни с памятью меньше — и это напрямую бьёт по скорости и стоимости.
Почти 4% сверху к трансформеру — это много или «ну такое»?
В бенчмарках на масштабе 1,5 млрд параметров самая продвинутая версия Mamba-3 (вариант MIMO) показала 57,6% средней точности, что даёт +2,2 процентных пункта к базовому трансформеру.
Звучит скромно, но исследователи подчёркивают: это почти 4% относительного улучшения. В мире языковых моделей, где за доли процента иногда бьются месяцами, это заметно.
И всё это — параллельно с идеей «давайте сделаем дешевле и быстрее на железе».
Три изменения, из-за которых Mamba-3 не просто «Mamba-2.1»
Технические термины там суровые, но смысл можно объяснить нормально.
1) Математика обновления состояния стала точнее
Раньше модель обновляла свою «внутреннюю память» более грубой аппроксимацией. В Mamba-3 это сделали аккуратнее — и внезапно оказалось, что можно выкинуть один старый костыль, который тянулся ещё из прошлых рекуррентных архитектур. Как будто чинили протекающий кран и случайно обнаружили, что половина труб вообще была лишней.
2) Появилась «логика с поворотом»
Одна из претензий к SSM-моделям: они раньше часто тупили на простых задачах типа отслеживания состояния или шаблонов — условно, проверить чётность, удержать простую цепочку, не потерять счётчик к концу абзаца.
Mamba-3 добавляет внутреннее представление, которое позволяет лучше держать такие зависимости. По эффекту это похоже на популярный трюк RoPE, который помогает моделям чувствовать порядок слов. Модель перестала терять нить там, где раньше начинала гадать — и это заметно именно на «скучных» задачах, которые не требуют никакого творчества.
3) MIMO: заставили GPU меньше скучать
Самое практичное: переход от «один вход — один выход» к Multi-Input Multi-Output.
Смысл: на шаге генерации можно делать больше вычислений параллельно, чтобы видеокарта не простаивала, пока данные ползут из памяти. То есть модель «думает больше за то же время ожидания».
Как если бы ты стоял в очереди в МФЦ и решил не просто смотреть в стену, а параллельно заполнить ещё три заявления. Очередь не быстрее, но пользы от простоя больше.
Что это даёт бизнесу и разработчикам
Если ты делаешь сервис с генерацией текста и платишь за GPU, тебе важны две вещи: задержка и пропускная способность.
Mamba-3 обещает приятную арифметику: при сопоставимом качестве с Mamba-2 — меньше внутреннего состояния, значит можно получить выше throughput на том же железе.
Ещё один сценарий — агенты, когда у тебя не один чатик, а пачка параллельных «исполнителей»: один пишет код, второй проверяет, третий общается с клиентом. Там задержка множится и начинает кусаться.
Плюс авторы прямо говорят: будущее — за гибридами, где SSM-часть работает как экономная память, а self-attention (трансформерная часть) — как точная «база данных» для деталей. То есть не обязательно «или-или».
Лицензия — тот редкий случай, когда это действительно важно
Mamba-3 выложили под Apache 2.0. Это одна из самых дружелюбных лицензий для компаний: можно брать, менять, встраивать в продукт и не раскрывать свой закрытый код.
Иными словами, это не «классная статья, встретимся через год», а штука, которую можно тащить в разработку уже сейчас.
И что, трансформеры всё?
Трансформеры никуда не денутся: они всё ещё сильны, особенно там, где нужно точное внимание к конкретным кускам контекста.
Но появление Mamba-3 — это хороший сигнал, что прогресс теперь идёт не только по линии «давайте сделаем модель больше», а по линии «давайте перестанем жечь железо впустую».
Похоже, гонка ИИ всё больше напоминает не соревнование «у кого двигатель мощнее», а спор, кто умеет ездить так, чтобы бак не улетал за вечер — и при этом не тащиться 40 км/ч по пустой трассе.