10,2 тыс подписчиков

🏆 MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding

Большая мультимодальная модель с расширенной памятью для понимания контекста длинных видео.

Модель позволяет использовать длинный контекст за счет существенного сокращения использования памяти графического процессора.

Вместо того, чтобы пытаться обрабатывать больше кадров одновременно, как в большинстве существующих моделей, MA-LMM обрабатывает видео онлайн с сохранением прошлой информации в банк памяти.

Это позволяет модели ссылаться на прошлые события из видео для его анализа, не превышая ограничений по длине контекста LLM или объема памяти графического процессора.

Банк памяти может быть легко интегрирован в существующие мультимодальные LLM в готовом виде.

Обширные эксперименты по различным задачам понимания видео, таким как понимание длинного видео, ответы на вопросы по видео и создание субтитров, позволяют достичь самых современных результатов в различных бенчмарках.

▪proj: https://boheumd.github.io/MA-LMM/

▪repo: https://github.com/boheumd/MA-LMM

▪abs: https://arxiv.org/abs/2404.05726

@machinelearning

🏆 MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding Большая мультимодальная модель с расширенной памятью для понимания контекста длинных видео.

Около минуты

9 апреля 2024