Найти в Дзене
Цифровая Переплавка

Fara-7B: маленький агент от Microsoft, который научил ИИ пользоваться компьютером как человек

Когда OpenAI представила «компьютерные агенты», стало ясно: наступает эра моделей, которые не просто генерируют текст, а управляют устройствами. Но Microsoft сделала шаг в сторону реальной массовости: выпустила Fara-7B — компактную 7B-модель, которая взаимодействует с вебом так же, как человек. Не через DOM, не через API сайта.
А через зрение + мышь + клавиатуру. Это принципиально другое качество моделей: Fara чувствует интерфейс глазами, кликает по координатам, скроллит, печатает и совершает сложные последовательности действий на реальных сайтах. Microsoft не скрывает: Fara — это модель из класса агенты, управляющие компьютером (Computer Use Agents - CUA). Но в отличие от многих гигантов на 50–100 млрд параметров, Fara сделана максимально практичной: Эта модель реально запускается: Пользовательские данные при этом остаются локально — огромный плюс для приватности. Fara не использует дерево доступности (accessibility tree), не строит отдельные графы DOM.
Она видит страницу как картинку
Оглавление

Когда OpenAI представила «компьютерные агенты», стало ясно: наступает эра моделей, которые не просто генерируют текст, а управляют устройствами. Но Microsoft сделала шаг в сторону реальной массовости: выпустила Fara-7B — компактную 7B-модель, которая взаимодействует с вебом так же, как человек.

Не через DOM, не через API сайта.
А через
зрение + мышь + клавиатуру.

Это принципиально другое качество моделей: Fara чувствует интерфейс глазами, кликает по координатам, скроллит, печатает и совершает сложные последовательности действий на реальных сайтах.

🧠 В чём ключевой прорыв Fara-7B

Microsoft не скрывает: Fara — это модель из класса агенты, управляющие компьютером (Computer Use Agents - CUA). Но в отличие от многих гигантов на 50–100 млрд параметров, Fara сделана максимально практичной:

✨ 1. 7 миллиардов параметров — и всё локально

Эта модель реально запускается:

  • на обычном GPU с VLLM,
  • на локальной машине без удалёнок,
  • на Azure Foundry для тех, кто не хочет качать веса.

Пользовательские данные при этом остаются локально — огромный плюс для приватности.

✨ 2. Визуальное управление интерфейсом

Fara не использует дерево доступности (accessibility tree), не строит отдельные графы DOM.
Она видит страницу как картинку и действует:

  • клики по пиксельным координатам 🖱️
  • ввод текста ⌨️
  • пролистывание и навигация
  • выбор нужных элементов по их визуальной форме

Это похоже на ранние исследования компьютерного зрения, но впервые — в продуктивной, компактной модели.

✨ 3. 145 тысяч синтетических траекторий

Тренировочный датасет полностью создан агентами в рамках Magentic-One.
Это непросто набор кликов, а именно:

  • разнообразные сайты,
  • сложные задачи,
  • вариативные сценарии,
  • ошибки, тайминги, корректировки.

Fara — это модель, которая научилась работать в условиях реальной веб-среды, а не идеальной песочницы.

🚀 Производительность: скорость стала важнее параметров

Microsoft хвастается не параметрами — а шагами.

Вот главное открытие:

⏱️ Fara-7B выполняет веб-задачи в среднем за 16 шагов.

Для сравнения:

  • другие модели требуют ~41 шаг
  • Fara быстрее в 2,5 раза

Почему это важно?
В веб-агентности каждый шаг стоит дорого:
⌛ новые запросы, загрузка страниц, задержка сети, ошибки интерфейса.

Быстрая модель ≠ удобство,
Быстрая модель =
корректная стратегия действий.

Fara не просто умная — она экономная.

🧪 Новые бенчмарки: WebTailBench как реальный тест, а не игрушка

Microsoft представила WebTailBench — 609 задач из реальных сайтов.
Не лабораторные эксперименты, а настоящие кейсы:

  • 🛒 шопинг
  • ✈️ поиск авиабилетов
  • 🏨 отели
  • 🍽️ рестораны
  • 🎟️ бронирование мероприятий
  • 🏠 недвижимость
  • 💼 вакансии
  • 🧩 многошаговые комбо-задачи (сравнение товаров, составление списка, кросс-сайтовые переходы)

И вот что любопытно:

👉 Fara-7B стабильно бьёт другие модели того же размера
👉 и даже опережает ряд крупных систем, включая OpenAI computer-use-preview и UI-TARS-1.5-7B

Особенно сильно Fara показывает себя там, где нужен контекст и стратегия, а не просто последовательность кликов.

🔧 Техническая сторона: почему модель такая эффективная

Fara построена на Qwen2.5-VL-7B — мощной мультимодальной архитектуре, способной обрабатывать изображения с высокими деталями.

Ключевые инженерные особенности:

  • 🖼️ визуальный энкодер высокого разрешения
  • 🎯 прямой регресс координат действия
  • 🧮 supervised fine-tuning на синтетических траекториях
  • 🧵 интеграция с playwright для детерминированной среды выполнения
  • 🧩 абстрактный Web Agent Interface, позволяющий подключать любую модель к тестам

По сути, Microsoft построила «научный станок» для массовой и быстрой оценки компьютерных агентов.

И Fara — первый результат этой инфраструктуры.

💭 Мой взгляд: это начало нового класса персональных ИИ

Для меня Fara-7B — пример того, куда движется ИИ ближайших лет:

  • ИИ, который видит, а не интерпретирует HTML.
  • ИИ, который делает, а не только говорит.
  • ИИ, который запускается локально, а не в гигантских кластерах.
  • ИИ, который становится частью компьютера, а не чат-ботом в браузере.

И вот что особенно важно:
Microsoft сделала модель
маленькой, а не огромной.

Это философия edge-компьютинга:
«Лучше быстрый и компактный агент, чем огромная, но неповоротливая LLM».

Fara открывает путь к:

  • персональным ИИ-ассистентам,
  • автономным веб-ботам,
  • RPA (роботизированная автоматизация) нового поколения,
  • ИИ, который реально заменяет рутинные действия человека.

🔗 Источники

GitHub репозиторий: https://github.com/microsoft/fara