Найти в Дзене
НЕЙРОСФЕРА

HumanOmniV2 — ИИ, который понимает и видео, и звук, и текст одновременно

HumanOmniV2 — ИИ, который понимает и видео, и звук, и текст одновременно 😮

На Hugging Face появилась информация о новой модели от PhilipC — HumanOmniV2. Её основная фишка — анализ мультимодальных данных: видео, аудио и текстов одновременно, с полным пониманием контекста.

Что делает:

— Понимает видео с диалогами, распознаёт, кто говорит, что происходит, что звучит в кадре;

— Может ответить на вопросы по ролику (например: «Что произошло после того, как человек в красном заговорил?»);

— Работает как ассистент-аналитик: даёшь видео — получаешь суть, действия, намерения, речь, шумы и события.

#нейросети #ИИ #нейросеть #искусственный_интеллект