Добавить в корзинуПозвонить
Найти в Дзене
Машинное обучение

🐍 Вышла новая модель из серии Mamba - Mamba-3

Гибридные архитектуры становятся всё популярнее, поэтому всё больше внимания уделяется созданию следующего поколения линейных моделей. В Mamba-3 исследователи предложили несколько новых идей вокруг SSM (state space models), которые заметно увеличивают способность модели обучаться без потери скорости. В результате Mamba-3 показывает более высокую производительность, чем предыдущие линейные модели, включая: - Mamba-2 - Gated DeltaNet Причём улучшения наблюдаются во всех размерах моделей. Интересный факт: это первая версия Mamba, созданная студентами. Основные авторы проекта: - Aakash Lahoti - Kevin Li - Berlin Chen - Caitlin Weng - Tri Dao Что нового в Mamba-3: 1. Улучшенная дискретизация SSM Предложена новая схема дискретизации, которая лучше имитирует свёртку (convolution) и делает модель более выразительной. Она также позволила избавиться от short convolution, который раньше использовался в линейных моделях. 2. Комплексные переходы состояний Переходы состояний теперь исполь

🐍 Вышла новая модель из серии Mamba - Mamba-3.

Гибридные архитектуры становятся всё популярнее, поэтому всё больше внимания уделяется созданию следующего поколения линейных моделей.

В Mamba-3 исследователи предложили несколько новых идей вокруг SSM (state space models), которые заметно увеличивают способность модели обучаться без потери скорости.

В результате Mamba-3 показывает более высокую производительность, чем предыдущие линейные модели, включая:

- Mamba-2

- Gated DeltaNet

Причём улучшения наблюдаются во всех размерах моделей.

Интересный факт:

это первая версия Mamba, созданная студентами.

Основные авторы проекта:

- Aakash Lahoti

- Kevin Li

- Berlin Chen

- Caitlin Weng

- Tri Dao

Что нового в Mamba-3:

1. Улучшенная дискретизация SSM

Предложена новая схема дискретизации, которая лучше имитирует свёртку (convolution) и делает модель более выразительной.

Она также позволила избавиться от short convolution, который раньше использовался в линейных моделях.

2. Комплексные переходы состояний

Переходы состояний теперь используют комплексные числа, что значительно улучшает способность модели отслеживать состояние.

Это решает проблемы предыдущих версий Mamba, которые, например, не могли решать даже некоторые простые задачи вроде bit parity.

3. Архитектура MIMO вместо SISO

Модель перешла от структуры SISO (single input single output) к MIMO (multiple input multiple output).

Это позволяет лучше использовать железо при inference, что даёт дополнительный прирост производительности.

Также архитектура была немного обновлена и стала ближе к современным языковым моделям.

Например, добавлены компоненты вроде BC / QK normalization.

Mamba-3 заметно усиливает линейные модели и делает их ещё более конкурентными с трансформерами, особенно в задачах языкового моделирования.

Paper: https://arxiv.org/abs/2603.15569

Code: https://github.com/state-spaces/mamba

Blog: https://goombalab.github.io/blog/2026/mamba3-part1/

🎯Полезные Мл-ресурсы 🚀 Max

@machinelearning