Не парсит DOM, не лезет в accessibility tree. Просто смотрит на страницу и кликает по координатам. 🔸 Видит интерфейс визуально, скроллит, кликает, вводит текст — полноценный Computer Use Agent на 7B параметров. 🔸 Автоматизирует поиск информации, заполнение форм, сравнение цен, бронирование — многошаговые задачи без костылей. 🔸 Запускается локально через vLLM, есть CLI и интеграция с Magentic-UI для графического управления. Ссылка Telegram: @Age_of_it
Microsoft представил модель, которая управляет браузером как человек — через визуальное восприятие экрана
ВчераВчера
3
~1 мин