INNOPROG EDUCATION — онлайн-платформа для обучения IT-профессиям

Mamba vs Transformers: Выбор архитектуры для работы с длинными последовательностями

10 марта10 мар

1 мин

🔗 Пытаетесь работать с длинными документами в LLM и всё ломается?

Контекст не влезает. Запросы дорогие. Чанкинг убивает связность.

Проблема в том, что трансформеры плохо масштабируются по длине контекста. Их attention требует квадратичных вычислений. Чем длиннее текст, тем быстрее растёт время и потребление памяти.

✔️ На практике это выглядит так:

🔗 Пытаетесь работать с длинными документами в LLM и всё ломается?

Контекст не влезает. Запросы дорогие. Чанкинг убивает связность.

✔️ На практике это выглядит так:

🔗 Пытаетесь работать с длинными документами в LLM и всё ломается?

Контекст не влезает. Запросы дорогие. Чанкинг убивает связность.

Проблема в том, что трансформеры плохо масштабируются по длине контекста. Их attention требует квадратичных вычислений. Чем длиннее текст, тем быстрее растёт время и потребление памяти.

✔️ На практике это выглядит так:

– При увеличении контекста в два раза вычисления растут в четыре

– Память под attention уходит в гигабайты

– Латентность становится непредсказуемой

Mamba предлагает другой подход.

Это архитектура из класса State Space Models. Она не сравнивает каждый токен с каждым, а поддерживает внутреннее состояние, которое обновляется шаг за шагом.

По сути модель помнит выжимку прошлого, а не весь текст целиком.

Главное отличие в линейной сложности вместо квадратичной. Удвоили длину последовательности, удвоили вычисления, а не увеличили их в четыре раза.

На длинных контекстах это даёт реальный выигрыш, в несколько раз быстрее инференс, сильно меньше потребление памяти, а также предсказуемая латентность даже на десятках тысяч токенов.

📌 Подробный разбор архитектуры, цифры, кейсы и практические рекомендации по ссылке: https://colab.research.google.com/drive/1sMq1Mm2tmfkTGYFCTeMc5zg_VX8JLr9c?usp=sharing