Команда OpenGVLab выпустила в открытый доступ две новые модели, которые могут помогать в работе с видео: Эти модели могут отвечать на вопросы о содержимом видео и давать текстовые описания того, что происходит на экране. Они базируются на мощной нейросети под названием Mistral-7B и специально разработаны для понимания контекста видео. Как они обучались: Эти шаги делают модели способными давать точные ответы на вопросы о видео и описывать сложные сцены. Различие между двумя моделями в том, что версия с пометкой "HD" обучалась на видео высокого разрешения, что делает её более подходящей для работы с видео в высоком качестве. Подробную информацию о том, как использовать эти модели, можно найти на сайте Hugging Face. Пока что удобного пользовательского интерфейса для них нет. 📌 Лицензия: MIT License (это значит, что использовать модели можно свободно). ______________________________________ ДЕТАЛИ: Теперь InternVideo2 интегрирована в систему VideoLLM, которая включает в себя большую языко
InternVideo2: ИИ нейросеть для описания и распознавания видео от OpenGVLab
6 августа 20246 авг 2024
23
1 мин