Единственное, я не хочу использовать для распознавания VLM (Visual Language Models). Может, в будущем я своё мнение поменяю, но VLM — это бесполезная игрушка. Зачем нужна языковая модель, которая рассказывает, что на картинке «стоит мужчина в розовой футболке рядом с серебристым Мини Купером»? Я и так это вижу 🙂 VK Cloud Vision отдаёт нормальный структурированный JSON, который гораздо полезнее. Если не согласны, то приходите завтра на стрим в 17:20 МСК — сможем поспорить 🙂
Единственное, я не хочу использовать для распознавания VLM (Visual Language Models
17 мая 202517 мая 2025
~1 мин