Пока индустрия масштабирует гигантов, энтузиасты проверяют эффективность Mamba3 — третьего поколения архитектуры SSM (State Space Models — модели, где вычислительная сложность растет линейно, а не квадратично от длины контекста). Модель Mamba3-Gated-Attention-190m объединяет сильные стороны селективного сканирования и механизмов внимания, пытаясь выжать максимум из крошечного веса. Главная фишка этого гибрида — использование Gated Attention вместе с обновленным блоком Mamba3. Это позволяет модели лучше фокусироваться на релевантных частях контекста, сохраняя при этом сверхбыстрый инференс, характерный для SSM. Разработчик модифицировал стратегию инициализации и нормализации, а также оптимизировал работу с внутренним кэшем, что позволило устранить ошибки нестыковки длины последовательностей при чанковой обработке. На тестах модель показывает 0.2662 на ARC-Challenge (сложные вопросы из школьной программы) и 0.2554 на MMLU (тест на общие знания в 57 областях). Для веса в 190M параметров
🔬⚡ Mamba3 + Gated Attention: экспериментальный гибрид на 190M параметров бросает вызов трансформерам
ВчераВчера
1 мин