2 года назад
Исследователи утверждают, что Mamba в пять раз быстрее Transformer
Недавний прорыв в области алгоритмов всколыхнул дискуссионные группы по машинному обучению. Модель, получившая название Mamba, называется усовершенствованием языковой модели Transformer, на которой основан ChatGPT от OpenAI. Transformer — это модели де-факто, используемые в большинстве генеративных чат-ботов искусственного интеллекта (ИИ), таких как Gemini, Claude и т. д. Эта научная статья была добавлена в Arxiv двумя исследователями, один из Принстонского университета, а другой из Университета Карнеги Меллона...
3 месяца назад
🐍 Вышла новая модель из серии Mamba - Mamba-3
Гибридные архитектуры становятся всё популярнее, поэтому всё больше внимания уделяется созданию следующего поколения линейных моделей. В Mamba-3 исследователи предложили несколько новых идей вокруг SSM (state space models), которые заметно увеличивают способность модели обучаться без потери скорости. В результате Mamba-3 показывает более высокую производительность, чем предыдущие линейные модели, включая: - Mamba-2 - Gated DeltaNet Причём улучшения наблюдаются во всех размерах моделей. Интересный факт: это первая версия Mamba, созданная студентами...