Найти тему
10,2 тыс подписчиков

💥 Video-LLaVA: Learning United Visual Representation by Alignment Before Projection


Простая, но надежная модель зрительного языка LVLM - Video-LLaVA, который обучается на смешанном наборе данных изображений и видео, взаимно усиливая друг друга. LLM выполнять визуальные рассуждения одновременно о изображениях и видео.

Video-LLaVA превосходит Video-ChatGPT, MSRVTT, MSVD, TGIF и ActivityNet на 5,8%, 9,9%, 18,6% и 10,1% на соответственно. Многочисленныйе эксперименты показывают, что Video-LLaVA превосходит модели, разработанные специально для изображений или видео.





💥 Video-LLaVA: Learning United Visual Representation by Alignment Before Projection  Простая, но надежная модель зрительного языка  LVLM - Video-LLaVA, который обучается на смешанном наборе данных...
Около минуты