💥 Video-LLaVA: Learning United Visual Representation by Alignment Before Projection Простая, но надежная модель зрительного языка LVLM - Video-LLaVA, который обучается на смешанном наборе данных изображений и видео, взаимно усиливая друг друга. LLM выполнять визуальные рассуждения одновременно о изображениях и видео. Video-LLaVA превосходит Video-ChatGPT, MSRVTT, MSVD, TGIF и ActivityNet на 5,8%, 9,9%, 18,6% и 10,1% на соответственно. Многочисленныйе эксперименты показывают, что Video-LLaVA превосходит модели, разработанные специально для изображений или видео. 🐱Github: https://github.com/PKU-YuanGroup/Video-LLaVA 🤗Demo: https://huggingface.co/spaces/LanguageBind/Video-LLaVA 📕Paper: https://arxiv.org/abs/2311.10122v1 ⏩Dataset: https://paperswithcode.com/dataset/mmbench @machinelearning