Добавить в корзинуПозвонить
Найти в Дзене
Age of IT

Microsoft представил модель, которая управляет браузером как человек — через визуальное восприятие экрана

Не парсит DOM, не лезет в accessibility tree. Просто смотрит на страницу и кликает по координатам. 🔸 Видит интерфейс визуально, скроллит, кликает, вводит текст — полноценный Computer Use Agent на 7B параметров. 🔸 Автоматизирует поиск информации, заполнение форм, сравнение цен, бронирование — многошаговые задачи без костылей. 🔸 Запускается локально через vLLM, есть CLI и интеграция с Magentic-UI для графического управления. Ссылка Telegram: @Age_of_it

Microsoft представил модель, которая управляет браузером как человек — через визуальное восприятие экрана. Не парсит DOM, не лезет в accessibility tree. Просто смотрит на страницу и кликает по координатам.

🔸 Видит интерфейс визуально, скроллит, кликает, вводит текст — полноценный Computer Use Agent на 7B параметров.

🔸 Автоматизирует поиск информации, заполнение форм, сравнение цен, бронирование — многошаговые задачи без костылей.

🔸 Запускается локально через vLLM, есть CLI и интеграция с Magentic-UI для графического управления.

Ссылка

Telegram: @Age_of_it