211 подписчиков

Fara-7B: маленький агент от Microsoft, который научил ИИ пользоваться компьютером как человек

27 ноября 202527 ноя 2025

3 мин

Когда OpenAI представила «компьютерные агенты», стало ясно: наступает эра моделей, которые не просто генерируют текст, а управляют устройствами. Но Microsoft сделала шаг в сторону реальной массовости: выпустила Fara-7B — компактную 7B-модель, которая взаимодействует с вебом так же, как человек. Не через DOM, не через API сайта.

А через зрение + мышь + клавиатуру. Это принципиально другое качество моделей: Fara чувствует интерфейс глазами, кликает по координатам, скроллит, печатает и совершает сложные последовательности действий на реальных сайтах. Microsoft не скрывает: Fara — это модель из класса агенты, управляющие компьютером (Computer Use Agents - CUA). Но в отличие от многих гигантов на 50–100 млрд параметров, Fara сделана максимально практичной: Эта модель реально запускается: Пользовательские данные при этом остаются локально — огромный плюс для приватности. Fara не использует дерево доступности (accessibility tree), не строит отдельные графы DOM.

Она видит страницу как картинку

Оглавление

🧠 В чём ключевой прорыв Fara-7B
✨ 1. 7 миллиардов параметров — и всё локально
✨ 2. Визуальное управление интерфейсом

Когда OpenAI представила «компьютерные агенты», стало ясно: наступает эра моделей, которые не просто генерируют текст, а управляют устройствами. Но Microsoft сделала шаг в сторону реальной массовости: выпустила Fara-7B — компактную 7B-модель, которая взаимодействует с вебом так же, как человек.

Не через DOM, не через API сайта.
А через зрение + мышь + клавиатуру.

Это принципиально другое качество моделей: Fara чувствует интерфейс глазами, кликает по координатам, скроллит, печатает и совершает сложные последовательности действий на реальных сайтах.

🧠 В чём ключевой прорыв Fara-7B

Microsoft не скрывает: Fara — это модель из класса агенты, управляющие компьютером (Computer Use Agents - CUA). Но в отличие от многих гигантов на 50–100 млрд параметров, Fara сделана максимально практичной:

✨ 1. 7 миллиардов параметров — и всё локально

Эта модель реально запускается:

на обычном GPU с VLLM,
на локальной машине без удалёнок,
на Azure Foundry для тех, кто не хочет качать веса.

Пользовательские данные при этом остаются локально — огромный плюс для приватности.

✨ 2. Визуальное управление интерфейсом

Fara не использует дерево доступности (accessibility tree), не строит отдельные графы DOM.
Она видит страницу как картинку и действует:

клики по пиксельным координатам 🖱️
ввод текста ⌨️
пролистывание и навигация
выбор нужных элементов по их визуальной форме

Это похоже на ранние исследования компьютерного зрения, но впервые — в продуктивной, компактной модели.

✨ 3. 145 тысяч синтетических траекторий

Тренировочный датасет полностью создан агентами в рамках Magentic-One.
Это непросто набор кликов, а именно:

разнообразные сайты,
сложные задачи,
вариативные сценарии,
ошибки, тайминги, корректировки.

Fara — это модель, которая научилась работать в условиях реальной веб-среды, а не идеальной песочницы.

🚀 Производительность: скорость стала важнее параметров

Microsoft хвастается не параметрами — а шагами.

Вот главное открытие:

⏱️ Fara-7B выполняет веб-задачи в среднем за 16 шагов.

Для сравнения:

другие модели требуют ~41 шаг
Fara быстрее в 2,5 раза

Почему это важно?
В веб-агентности каждый шаг стоит дорого:
⌛ новые запросы, загрузка страниц, задержка сети, ошибки интерфейса.

Быстрая модель ≠ удобство,
Быстрая модель = корректная стратегия действий.

Fara не просто умная — она экономная.

🧪 Новые бенчмарки: WebTailBench как реальный тест, а не игрушка

Microsoft представила WebTailBench — 609 задач из реальных сайтов.
Не лабораторные эксперименты, а настоящие кейсы:

🛒 шопинг
✈️ поиск авиабилетов
🏨 отели
🍽️ рестораны
🎟️ бронирование мероприятий
🏠 недвижимость
💼 вакансии
🧩 многошаговые комбо-задачи (сравнение товаров, составление списка, кросс-сайтовые переходы)

И вот что любопытно:

👉 Fara-7B стабильно бьёт другие модели того же размера
👉 и даже опережает ряд крупных систем, включая OpenAI computer-use-preview и UI-TARS-1.5-7B

Особенно сильно Fara показывает себя там, где нужен контекст и стратегия, а не просто последовательность кликов.

🔧 Техническая сторона: почему модель такая эффективная

Fara построена на Qwen2.5-VL-7B — мощной мультимодальной архитектуре, способной обрабатывать изображения с высокими деталями.

Ключевые инженерные особенности:

🖼️ визуальный энкодер высокого разрешения
🎯 прямой регресс координат действия
🧮 supervised fine-tuning на синтетических траекториях
🧵 интеграция с playwright для детерминированной среды выполнения
🧩 абстрактный Web Agent Interface, позволяющий подключать любую модель к тестам

По сути, Microsoft построила «научный станок» для массовой и быстрой оценки компьютерных агентов.

И Fara — первый результат этой инфраструктуры.

💭 Мой взгляд: это начало нового класса персональных ИИ

Для меня Fara-7B — пример того, куда движется ИИ ближайших лет:

ИИ, который видит, а не интерпретирует HTML.
ИИ, который делает, а не только говорит.
ИИ, который запускается локально, а не в гигантских кластерах.
ИИ, который становится частью компьютера, а не чат-ботом в браузере.

И вот что особенно важно:
Microsoft сделала модель маленькой, а не огромной.

Это философия edge-компьютинга:
«Лучше быстрый и компактный агент, чем огромная, но неповоротливая LLM».

Fara открывает путь к:

персональным ИИ-ассистентам,
автономным веб-ботам,
RPA (роботизированная автоматизация) нового поколения,
ИИ, который реально заменяет рутинные действия человека.

🔗 Источники

GitHub репозиторий: https://github.com/microsoft/fara