138,6 тыс подписчиков

Исследователи утверждают, что Mamba в пять раз быстрее Transformer

23 января 202423 янв 2024

1 мин

Недавний прорыв в области алгоритмов всколыхнул дискуссионные группы по машинному обучению. Модель, получившая название Mamba, называется усовершенствованием языковой модели Transformer, на которой основан ChatGPT от OpenAI.

Transformer — это модели де-факто, используемые в большинстве генеративных чат-ботов искусственного интеллекта (ИИ), таких как Gemini, Claude и т. д. Эта научная статья была добавлена в Arxiv двумя исследователями, один из Принстонского университета, а другой из Университета Карнеги Меллона. Работа была опубликована в декабре 2023 года и с тех пор вызвала большой ажиотаж.

Исследователи утверждают, что Mamba в пять раз быстрее Transformer и превосходит его в реальных данных с последовательностями до миллиона токенов. Mamba хорошо работает в качестве общей модели для последовательностей в различных задачах, таких как язык, аудио и геномика, и превосходит Transformers вдвое по производительности как в обучении, так и в тестировании, утверждается в исследовании.

Mamba — это структурированная модель состояний (Structured State Model, SSM), подобная большим языковым моделям (Large Language Models, LLM), которая способна выполнять языковое моделирование. На январь 2024 года языковое моделирование является процессом, с помощью которого чат-боты, такие как ChatGPT и LLM понимают и генерируют человекоподобный текст с помощью больших нейронных сетей и механизмов внимания. Они обрабатывают информацию в более непрерывном режиме, обращая внимание на различные части предложения.

С другой стороны, SSM также решают языковые задачи, но иначе. Вместо того, чтобы использовать огромные нейронные сети, они представляют различные состояния разговора с помощью математических моделей. Эти состояния помогают модели понимать и реагировать на сказанное более структурированно. Хотя пока еще не время свергать Transformer, учитывая, что научные работы, выложенные на Arxiv, не проходят рецензирование и являются лишь более простым и быстрым способом донести исследования до мира.

Будучи основой общей модели последовательности, Mamba достигает передовой производительности в нескольких модальностях, таких как язык, аудио и геномика. При моделировании языка модель, созданная исследователями под названием Mamba-3B, превосходит Transformer того же размера и вдвое большего, как при предварительном обучении, так и при последующей оценке.