Alibaba выпустила модель для понимания изображений и видео
Модель Qwen2-VL от Alibaba Cloud может понимать изображения в различных форматах и видео продолжительностью более 20 минут. Модель умеет отвечать на вопросы и генерировать контент на основе увиденного на разных языках (о поддержке русского языка нет данных). Небольшой размер Qwen2-VL позволяет интегрировать ее в смартфоны и системы управления роботами.
В большинстве тестов на визуальное восприятие, Qwen2-VL превосходит GPT-4o и Claude 3.5 Sonnet.
Qwen2-VL выпущена в нескольких версиях. Меньшие модели с 2 и 7 миллиардами параметров имеют открытый исходный код, а модель 72B доступна через API.
—
GPT-4o и Midjourney v6.1 доступны в c.aiacademy.me
Около минуты
2 сентября 2024