Microsoft представил модель, которая управляет браузером как человек — через визуальное восприятие экрана
Не парсит DOM, не лезет в accessibility tree. Просто смотрит на страницу и кликает по координатам. 🔸 Видит интерфейс визуально, скроллит, кликает, вводит текст — полноценный Computer Use Agent на 7B параметров. 🔸 Автоматизирует поиск информации, заполнение форм, сравнение цен, бронирование — многошаговые задачи без костылей...