Современные MLLM (мультимодальные большие языковые модели) отлично справляются с простым описанием картинок, но пасуют, когда нужно использовать внешние инструменты в несколько шагов. Исследователи представили VTC-Bench — бенчмарк, который заставляет модели не просто «смотреть», а буквально собирать конвейер из 32 различных визуальных операций на базе OpenCV. В отличие от старых тестов с короткими траекториями, здесь от агентов требуют реального планирования: например, найти объект, применить к нему фильтр, вырезать фрагмент и передать результат следующему инструменту. Это имитирует работу реальных пайплайнов компьютерного зрения, где один неверный шаг рушит всю цепочку. Даже топовые модели вроде Gemini-1.5-Pro и GPT-4o показывают посредственные результаты, когда глубина цепочки инструментов увеличивается Эксперименты подтвердили, что главной проблемой остается visual grounding (способность соотносить текстовые описания с конкретными пикселями на изображении) и потеря контекста на д
📝 Мультимодальные агенты проваливают сложные цепочки действий — новый VTC-Bench вскрыл слабые места MLLM
СегодняСегодня
1 мин