Найти в Дзене
man smart-home

Единственное, я не хочу использовать для распознавания VLM (Visual Language Models

Единственное, я не хочу использовать для распознавания VLM (Visual Language Models). Может, в будущем я своё мнение поменяю, но VLM — это бесполезная игрушка. Зачем нужна языковая модель, которая рассказывает, что на картинке «стоит мужчина в розовой футболке рядом с серебристым Мини Купером»? Я и так это вижу 🙂 VK Cloud Vision отдаёт нормальный структурированный JSON, который гораздо полезнее. Если не согласны, то приходите завтра на стрим в 17:20 МСК — сможем поспорить 🙂

Единственное, я не хочу использовать для распознавания VLM (Visual Language Models).

Может, в будущем я своё мнение поменяю, но VLM — это бесполезная игрушка. Зачем нужна языковая модель, которая рассказывает, что на картинке «стоит мужчина в розовой футболке рядом с серебристым Мини Купером»? Я и так это вижу 🙂 VK Cloud Vision отдаёт нормальный структурированный JSON, который гораздо полезнее.

Если не согласны, то приходите завтра на стрим в 17:20 МСК — сможем поспорить 🙂

-2