Найти тему
75 подписчиков

SeViLA — нейронка, которая может распознать, что происходит на видео. Без субтитров, ChatGPT, регистрации и СМС.


1) Загружаешь видео
2) Задаёшь вопрос
3) Даёшь три варианта ответа
4) Video Frame я поставил 32 как в примерах, ибо не ясно что имеется ввиду
5) Keyframe это сколько кадров с указанным запросом надо найти

Из всего, что я тестил это первый пример, когда анализ видео сработал. Суммаризаторы на основе OpenAI требуют API и оно соответственно платное за каждый запрос. А эта вещь работает как в Gradio, так и локально можно крутить, если есть 12 ГБ видеопамяти. Початиться с видео нельзя, но на текущих скоростях, пока я это пишу, кто-то уже код такого решения заливает.

Около минуты