11,4 тыс подписчиков

⚡️ Alibaba Tongyi Lab открыла исходники GUI-Owl-1.5 и Mobile-Agent-v3.5 - семейства моделей-агентов, которые умеют напрямую управлять

9 марта9 мар

1 мин

интерфейсами: desktop, мобильными приложениями и браузером. Все модели построены на базе Qwen3-VL и обучены в одной парадигме для работы с GUI. Доступно 6 размеров моделей: • 2B / 4B / 8B / 32B Instruct — быстрые модели с низкой задержкой (без Chain-of-Thought) • 8B / 32B Thinking — более сильное планирование и reasoning По бенчмаркам это open-source SOTA на более чем 20 тестах GUI-агентов: • OSWorld-Verified — 56.5 (32B-Instruct) • AndroidWorld — 71.6 (8B-Thinking) • VisualWebArena — 46.6 • WebArena — 48.4 (32B-Thinking) • ScreenSpot-Pro — 80.3 с двухэтапным crop refine • OSWorld-MCP — 47.6 • MobileWorld — 46.8 Архитектура обучения строится на трех ключевых идеях: • Hybrid Data Flywheel — комбинация симуляций и cloud sandbox для генерации GUI-траекторий с проверкой чекпоинтов • Unified CoT Synthesis — world modeling, knowledge injection и tool/MCP reasoning встроены в каждый шаг • MRPO — multi-platform reinforcement learning с online rollout buffer и защитой от outcome collapse

⚡️ Alibaba Tongyi Lab открыла исходники GUI-Owl-1.5 и Mobile-Agent-v3.5 - семейства моделей-агентов, которые умеют напрямую управлять интерфейсами: desktop, мобильными приложениями и браузером.

Все модели построены на базе Qwen3-VL и обучены в одной парадигме для работы с GUI.

Доступно 6 размеров моделей:

• 2B / 4B / 8B / 32B Instruct — быстрые модели с низкой задержкой (без Chain-of-Thought)

• 8B / 32B Thinking — более сильное планирование и reasoning

По бенчмаркам это open-source SOTA на более чем 20 тестах GUI-агентов:

• OSWorld-Verified — 56.5 (32B-Instruct)

• AndroidWorld — 71.6 (8B-Thinking)

• VisualWebArena — 46.6

• WebArena — 48.4 (32B-Thinking)

• ScreenSpot-Pro — 80.3 с двухэтапным crop refine

• OSWorld-MCP — 47.6

• MobileWorld — 46.8

Архитектура обучения строится на трех ключевых идеях:

• Hybrid Data Flywheel — комбинация симуляций и cloud sandbox для генерации GUI-траекторий с проверкой чекпоинтов

• Unified CoT Synthesis — world modeling, knowledge injection и tool/MCP reasoning встроены в каждый шаг

• MRPO — multi-platform reinforcement learning с online rollout buffer и защитой от outcome collapse

Фактически это еще один шаг к полностью автономным AI-агентам, которые могут работать с интерфейсами так же, как человек.

Models: modelscope.cn/models/iic/GUI-Owl-1.5-8B-Instruct

GitHub: github.com/X-PLUG/MobileAgent

🎯Полезные Мл-ресурсы 🚀 Max

@machinelearning

Гаджеты и электроника

5,73 млн интересуются