Когда OpenAI представила «компьютерные агенты», стало ясно: наступает эра моделей, которые не просто генерируют текст, а управляют устройствами. Но Microsoft сделала шаг в сторону реальной массовости: выпустила Fara-7B — компактную 7B-модель, которая взаимодействует с вебом так же, как человек. Не через DOM, не через API сайта.
А через зрение + мышь + клавиатуру. Это принципиально другое качество моделей: Fara чувствует интерфейс глазами, кликает по координатам, скроллит, печатает и совершает сложные последовательности действий на реальных сайтах. Microsoft не скрывает: Fara — это модель из класса агенты, управляющие компьютером (Computer Use Agents - CUA). Но в отличие от многих гигантов на 50–100 млрд параметров, Fara сделана максимально практичной: Эта модель реально запускается: Пользовательские данные при этом остаются локально — огромный плюс для приватности. Fara не использует дерево доступности (accessibility tree), не строит отдельные графы DOM.
Она видит страницу как картинку