Найти в Дзене
SkyNet | Новости ИИ

Что такое агенты для использования компьютера? От веб до ОС — техническое объяснение

Что такое агенты для использования компьютера? От веб до ОС — техническое объяснение Агенты для использования компьютера (также известные как агенты GUI) — это модели на основе визуального языка, которые наблюдают за экраном, определяют элементы пользовательского интерфейса (UI) и выполняют ограниченные действия UI (нажатие, ввод текста, прокрутка, комбинации клавиш) для выполнения задач в неизменных приложениях и браузерах. Примеры публичных реализаций: * использование компьютера от Anthropic; * использование компьютера Gemini 2.5 от Google; * агент, использующий компьютер от OpenAI, который поддерживает Operator. Цикл управления Типичный цикл выполнения: 1. Захват скриншота + состояния. 2. Планирование следующего действия с пространственной/семантической привязкой. 3. Выполнение действия через ограниченную схему действий. 4. Проверка и повтор при сбое. Поставщики документируют стандартизированные наборы действий и ограничения; проверенные программы нормализуют сравнения. Бенчма

Что такое агенты для использования компьютера? От веб до ОС — техническое объяснение

Агенты для использования компьютера (также известные как агенты GUI) — это модели на основе визуального языка, которые наблюдают за экраном, определяют элементы пользовательского интерфейса (UI) и выполняют ограниченные действия UI (нажатие, ввод текста, прокрутка, комбинации клавиш) для выполнения задач в неизменных приложениях и браузерах.

Примеры публичных реализаций:

* использование компьютера от Anthropic;

* использование компьютера Gemini 2.5 от Google;

* агент, использующий компьютер от OpenAI, который поддерживает Operator.

Цикл управления

Типичный цикл выполнения:

1. Захват скриншота + состояния.

2. Планирование следующего действия с пространственной/семантической привязкой.

3. Выполнение действия через ограниченную схему действий.

4. Проверка и повтор при сбое.

Поставщики документируют стандартизированные наборы действий и ограничения; проверенные программы нормализуют сравнения.

Бенчмарк

OSWorld (HKU, апрель 2024): 369 реальных задач для настольных компьютеров и веб-приложений, охватывающих файловый ввод-вывод ОС и рабочие процессы с несколькими приложениями. При выпуске: человек — 72,36%, лучшая модель — 12,24%.

Состояние на 2025 год:

* Anthropic Claude Sonnet 4.5 сообщает о 61,4% в OSWorld (ниже человеческого уровня, но значительный скачок по сравнению с 42,2%).

* Живые веб-бенчмарки: Google Gemini 2.5 Computer Use сообщает о 69,0% в Online-Mind2Web (официальная таблица лидеров), 88,9% в WebVoyager, 69,7% в AndroidWorld; текущая модель оптимизирована для браузеров и пока не оптимизирована для управления на уровне ОС.

Компоненты архитектуры

* Восприятие и привязка: периодические скриншоты, извлечение текста с помощью OCR, локализация элементов, вывод координат.

* Планирование: многошаговая политика с восстановлением; часто посттренируется/настраивается с помощью RL для управления пользовательским интерфейсом.

* Схема действий: ограниченные глаголы (clickat, type, keycombo, open_app), исключения, специфичные для бенчмарка, для предотвращения использования инструментов.

* Механизм оценки: живые веб-песочницы/виртуальные машины с независимым аудитом и воспроизводимыми скриптами выполнения.

Компоненты для предприятий

* Anthropic: API использования компьютера; Sonnet 4.5 на уровне 61,4% в OSWorld; в документах особое внимание уделяется точному позиционированию пикселей, повторным попыткам и подтверждениям безопасности.

* Google DeepMind: Gemini 2.5 Computer Use API + карточка модели с Online-Mind2Web 69,0%, WebVoyager 88,9%, AndroidWorld 69,7%, измерения задержки и меры безопасности.

* OpenAI: предварительный просмотр исследования Operator для пользователей из США, основанный на модели Computer-Using Agent; отдельная системная карта и поверхность для разработчиков через API ответов; доступность ограничена/предварительный просмотр.

Куда они направляются: веб → ОС

* Клонирование рабочего процесса с несколькими/единичным снимком: краткосрочная цель — надёжное имитирование задач на основе одной демонстрации (захват экрана + повест...

Читать далее