интерфейсами: desktop, мобильными приложениями и браузером. Все модели построены на базе Qwen3-VL и обучены в одной парадигме для работы с GUI. Доступно 6 размеров моделей: • 2B / 4B / 8B / 32B Instruct — быстрые модели с низкой задержкой (без Chain-of-Thought) • 8B / 32B Thinking — более сильное планирование и reasoning По бенчмаркам это open-source SOTA на более чем 20 тестах GUI-агентов: • OSWorld-Verified — 56.5 (32B-Instruct) • AndroidWorld — 71.6 (8B-Thinking) • VisualWebArena — 46.6 • WebArena — 48.4 (32B-Thinking) • ScreenSpot-Pro — 80.3 с двухэтапным crop refine • OSWorld-MCP — 47.6 • MobileWorld — 46.8 Архитектура обучения строится на трех ключевых идеях: • Hybrid Data Flywheel — комбинация симуляций и cloud sandbox для генерации GUI-траекторий с проверкой чекпоинтов • Unified CoT Synthesis — world modeling, knowledge injection и tool/MCP reasoning встроены в каждый шаг • MRPO — multi-platform reinforcement learning с online rollout buffer и защитой от outcome collapse
⚡️ Alibaba Tongyi Lab открыла исходники GUI-Owl-1.5 и Mobile-Agent-v3.5 - семейства моделей-агентов, которые умеют напрямую управлять
9 марта9 мар
18
1 мин