2178 подписчиков

Microsoft представил модель, которая управляет браузером как человек — через визуальное восприятие экрана

СегодняСегодня

~1 мин

Не парсит DOM, не лезет в accessibility tree. Просто смотрит на страницу и кликает по координатам. 🔸 Видит интерфейс визуально, скроллит, кликает, вводит текст — полноценный Computer Use Agent на 7B параметров. 🔸 Автоматизирует поиск информации, заполнение форм, сравнение цен, бронирование — многошаговые задачи без костылей. 🔸 Запускается локально через vLLM, есть CLI и интеграция с Magentic-UI для графического управления. Если нужен автономный браузерный ассистент, который не зависит от структуры DOM — это оно. Компактная модель, которую реально крутить на своём железе. Вот здесь — microsoft/fara.git tg / max

Microsoft представил модель, которая управляет браузером как человек — через визуальное восприятие экрана. Не парсит DOM, не лезет в accessibility tree. Просто смотрит на страницу и кликает по координатам.

🔸 Видит интерфейс визуально, скроллит, кликает, вводит текст — полноценный Computer Use Agent на 7B параметров.

🔸 Автоматизирует поиск информации, заполнение форм, сравнение цен, бронирование — многошаговые задачи без костылей.

🔸 Запускается локально через vLLM, есть CLI и интеграция с Magentic-UI для графического управления.

Если нужен автономный браузерный ассистент, который не зависит от структуры DOM — это оно. Компактная модель, которую реально крутить на своём железе.

Вот здесь — microsoft/fara.git

tg / max

Гаджеты и электроника

5,73 млн интересуются