26 подписчиков

InternVideo2: ИИ нейросеть для описания и распознавания видео от OpenGVLab

6 августа 20246 авг 2024

1 мин

Команда OpenGVLab выпустила в открытый доступ две новые модели, которые могут помогать в работе с видео: Эти модели могут отвечать на вопросы о содержимом видео и давать текстовые описания того, что происходит на экране. Они базируются на мощной нейросети под названием Mistral-7B и специально разработаны для понимания контекста видео. Как они обучались: Эти шаги делают модели способными давать точные ответы на вопросы о видео и описывать сложные сцены. Различие между двумя моделями в том, что версия с пометкой "HD" обучалась на видео высокого разрешения, что делает её более подходящей для работы с видео в высоком качестве. Подробную информацию о том, как использовать эти модели, можно найти на сайте Hugging Face. Пока что удобного пользовательского интерфейса для них нет. 📌 Лицензия: MIT License (это значит, что использовать модели можно свободно). ______________________________________ ДЕТАЛИ: Теперь InternVideo2 интегрирована в систему VideoLLM, которая включает в себя большую языко

Оглавление

Что нового?
Как начать работу?

Команда OpenGVLab выпустила в открытый доступ две новые модели, которые могут помогать в работе с видео:

🟢 Intern Video 2-Chat-8B (Hugging Face)
🟢 Intern Video 2-Chat-8B-HD (Hugging Face)

Эти модели могут отвечать на вопросы о содержимом видео и давать текстовые описания того, что происходит на экране. Они базируются на мощной нейросети под названием Mistral-7B и специально разработаны для понимания контекста видео.

Как они обучались:

Модели учились восстанавливать удалённые кусочки видео.
Затем они учились связывать визуальные образы с другими типами данных, такими как звук и текст.
В конце они обучались предсказывать следующие шаги, основываясь на том, что видят в видео.

Эти шаги делают модели способными давать точные ответы на вопросы о видео и описывать сложные сцены.

Различие между двумя моделями в том, что версия с пометкой "HD" обучалась на видео высокого разрешения, что делает её более подходящей для работы с видео в высоком качестве.

Подробную информацию о том, как использовать эти модели, можно найти на сайте Hugging Face. Пока что удобного пользовательского интерфейса для них нет.

📌 Лицензия: MIT License (это значит, что использовать модели можно свободно).

______________________________________

ДЕТАЛИ:

Что нового?

Теперь InternVideo2 интегрирована в систему VideoLLM, которая включает в себя большую языковую модель (LLM) и видео BLIP. Это сделано для улучшения взаимодействия модели с текстом и видео. В процессе обучения модель обновляется, что помогает ей лучше понимать и описывать видео.

Как начать работу?

Получите доступ: Прежде чем использовать модель, нужно получить доступ к базовой модели Mistral-7B. Если доступа нет, его можно запросить на сайте Hugging Face и добавить свой токен в переменные окружения.
Настройте окружение: Убедитесь, что у вас установлена версия transformers 4.38.0 или выше. Установите необходимые пакеты Python, используя файл pip_requirements.
Используйте модель: Вот как можно использовать модели для анализа видео:
Загрузите видео.
Обработайте его и получите текстовые описания.
Задавайте вопросы и получайте ответы о содержимом видео.

______________________________________

Всех, кто интересуется последними новинками из мира AI призываем подписываться на наш канал. А тех, кто уже сейчас хочет попробовать себя в роли нейрокреатора, приглашаем на наш сайт