Гибридные архитектуры становятся всё популярнее, поэтому всё больше внимания уделяется созданию следующего поколения линейных моделей. В Mamba-3 исследователи предложили несколько новых идей вокруг SSM (state space models), которые заметно увеличивают способность модели обучаться без потери скорости. В результате Mamba-3 показывает более высокую производительность, чем предыдущие линейные модели, включая: - Mamba-2 - Gated DeltaNet Причём улучшения наблюдаются во всех размерах моделей. Интересный факт: это первая версия Mamba, созданная студентами. Основные авторы проекта: - Aakash Lahoti - Kevin Li - Berlin Chen - Caitlin Weng - Tri Dao Что нового в Mamba-3: 1. Улучшенная дискретизация SSM Предложена новая схема дискретизации, которая лучше имитирует свёртку (convolution) и делает модель более выразительной. Она также позволила избавиться от short convolution, который раньше использовался в линейных моделях. 2. Комплексные переходы состояний Переходы состояний теперь исполь