Добавить в корзинуПозвонить
Найти в Дзене
FABULAai

InternVideo2: ИИ нейросеть для описания и распознавания видео от OpenGVLab

Команда OpenGVLab выпустила в открытый доступ две новые модели, которые могут помогать в работе с видео: Эти модели могут отвечать на вопросы о содержимом видео и давать текстовые описания того, что происходит на экране. Они базируются на мощной нейросети под названием Mistral-7B и специально разработаны для понимания контекста видео. Как они обучались: Эти шаги делают модели способными давать точные ответы на вопросы о видео и описывать сложные сцены. Различие между двумя моделями в том, что версия с пометкой "HD" обучалась на видео высокого разрешения, что делает её более подходящей для работы с видео в высоком качестве. Подробную информацию о том, как использовать эти модели, можно найти на сайте Hugging Face. Пока что удобного пользовательского интерфейса для них нет. 📌 Лицензия: MIT License (это значит, что использовать модели можно свободно). ______________________________________ ДЕТАЛИ: Теперь InternVideo2 интегрирована в систему VideoLLM, которая включает в себя большую языко
Оглавление

Команда OpenGVLab выпустила в открытый доступ две новые модели, которые могут помогать в работе с видео:

Эти модели могут отвечать на вопросы о содержимом видео и давать текстовые описания того, что происходит на экране. Они базируются на мощной нейросети под названием Mistral-7B и специально разработаны для понимания контекста видео.

Как они обучались:

  1. Модели учились восстанавливать удалённые кусочки видео.
  2. Затем они учились связывать визуальные образы с другими типами данных, такими как звук и текст.
  3. В конце они обучались предсказывать следующие шаги, основываясь на том, что видят в видео.

Эти шаги делают модели способными давать точные ответы на вопросы о видео и описывать сложные сцены.

Различие между двумя моделями в том, что версия с пометкой "HD" обучалась на видео высокого разрешения, что делает её более подходящей для работы с видео в высоком качестве.

Подробную информацию о том, как использовать эти модели, можно найти на сайте Hugging Face. Пока что удобного пользовательского интерфейса для них нет.

📌 Лицензия: MIT License (это значит, что использовать модели можно свободно).

______________________________________

ДЕТАЛИ:

Что нового?

Теперь InternVideo2 интегрирована в систему VideoLLM, которая включает в себя большую языковую модель (LLM) и видео BLIP. Это сделано для улучшения взаимодействия модели с текстом и видео. В процессе обучения модель обновляется, что помогает ей лучше понимать и описывать видео.

Как начать работу?

  1. Получите доступ: Прежде чем использовать модель, нужно получить доступ к базовой модели Mistral-7B. Если доступа нет, его можно запросить на сайте Hugging Face и добавить свой токен в переменные окружения.
  2. Настройте окружение: Убедитесь, что у вас установлена версия transformers 4.38.0 или выше. Установите необходимые пакеты Python, используя файл pip_requirements.
  3. Используйте модель: Вот как можно использовать модели для анализа видео:
    Загрузите видео.
    Обработайте его и получите текстовые описания.
    Задавайте вопросы и получайте ответы о содержимом видео.

______________________________________

Всех, кто интересуется последними новинками из мира AI призываем подписываться на наш канал. А тех, кто уже сейчас хочет попробовать себя в роли нейрокреатора, приглашаем на наш сайт