Найти в Дзене

📝 Мультимодальные агенты проваливают сложные цепочки действий — новый VTC-Bench вскрыл слабые места MLLM

Современные MLLM (мультимодальные большие языковые модели) отлично справляются с простым описанием картинок, но пасуют, когда нужно использовать внешние инструменты в несколько шагов. Исследователи представили VTC-Bench — бенчмарк, который заставляет модели не просто «смотреть», а буквально собирать конвейер из 32 различных визуальных операций на базе OpenCV. В отличие от старых тестов с короткими траекториями, здесь от агентов требуют реального планирования: например, найти объект, применить к нему фильтр, вырезать фрагмент и передать результат следующему инструменту. Это имитирует работу реальных пайплайнов компьютерного зрения, где один неверный шаг рушит всю цепочку. Даже топовые модели вроде Gemini-1.5-Pro и GPT-4o показывают посредственные результаты, когда глубина цепочки инструментов увеличивается Эксперименты подтвердили, что главной проблемой остается visual grounding (способность соотносить текстовые описания с конкретными пикселями на изображении) и потеря контекста на д

📝 Мультимодальные агенты проваливают сложные цепочки действий — новый VTC-Bench вскрыл слабые места MLLM

Современные MLLM (мультимодальные большие языковые модели) отлично справляются с простым описанием картинок, но пасуют, когда нужно использовать внешние инструменты в несколько шагов. Исследователи представили VTC-Bench — бенчмарк, который заставляет модели не просто «смотреть», а буквально собирать конвейер из 32 различных визуальных операций на базе OpenCV.

В отличие от старых тестов с короткими траекториями, здесь от агентов требуют реального планирования: например, найти объект, применить к нему фильтр, вырезать фрагмент и передать результат следующему инструменту. Это имитирует работу реальных пайплайнов компьютерного зрения, где один неверный шаг рушит всю цепочку.

Даже топовые модели вроде Gemini-1.5-Pro и GPT-4o показывают посредственные результаты, когда глубина цепочки инструментов увеличивается

Эксперименты подтвердили, что главной проблемой остается visual grounding (способность соотносить текстовые описания с конкретными пикселями на изображении) и потеря контекста на длинных дистанциях. Модели часто путают аргументы функций или вызывают инструменты в нелогичном порядке.

Для разработчиков это четкий сигнал: не полагайтесь на «разумность» агентов в сложных визуальных задачах из коробки. Пока что лучшая стратегия — жестко прописывать логику или использовать SFT (Supervised Fine-Tuning — дообучение на размеченных примерах) именно под специфические цепочки инструментов, так как общие знания моделей здесь не вытягивают.

#AI #Research #MLLM #ComputerVision #Agents #Benchmarks

🔗 VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining