Недавний прорыв в области алгоритмов всколыхнул дискуссионные группы по машинному обучению. Модель, получившая название Mamba, называется усовершенствованием языковой модели Transformer, на которой основан ChatGPT от OpenAI. Transformer — это модели де-факто, используемые в большинстве генеративных чат-ботов искусственного интеллекта (ИИ), таких как Gemini, Claude и т. д. Эта научная статья была добавлена в Arxiv двумя исследователями, один из Принстонского университета, а другой из Университета Карнеги Меллона. Работа была опубликована в декабре 2023 года и с тех пор вызвала большой ажиотаж. Исследователи утверждают, что Mamba в пять раз быстрее Transformer и превосходит его в реальных данных с последовательностями до миллиона токенов. Mamba хорошо работает в качестве общей модели для последовательностей в различных задачах, таких как язык, аудио и геномика, и превосходит Transformers вдвое по производительности как в обучении, так и в тестировании, утверждается в исследовании. Mamba
Исследователи утверждают, что Mamba в пять раз быстрее Transformer
23 января 202423 янв 2024
61
1 мин