Alibaba выпустила модель для понимания изображений и видео

Модель Qwen2-VL от Alibaba Cloud может понимать изображения в различных форматах и видео продолжительностью более 20 минут. Модель умеет отвечать на вопросы и генерировать контент на основе увиденного на разных языках (о поддержке русского языка нет данных). Небольшой размер Qwen2-VL позволяет интегрировать ее в смартфоны и системы управления роботами.

В большинстве тестов на визуальное восприятие, Qwen2-VL превосходит GPT-4o и Claude 3.5 Sonnet.

Qwen2-VL выпущена в нескольких версиях. Меньшие модели с 2 и 7 миллиардами параметров имеют открытый исходный код, а модель 72B доступна через API.

https://the-decoder.com/alibabas-qwen2-vl-is-designed-as-a-visual-agent-that-can-analyze-over-20-minutes-of-video/

—

GPT-4o и Midjourney v6.1 доступны в c.aiacademy.me

Около минуты

2 сентября 2024