AIT | Контент Завод - автоматизация с помощью Нейросетей от Андрея Федорчука

22 подписчика

Browser-use и computer-use агенты без API

18 апреля18 апр

6 мин

Текст подготовил: Андрей Федорчук Browser-use и computer-use агенты - это Agentic AI, который управляет интерфейсом как человек: кликает, вводит, проверяет результат. Выгода простая: можно автоматизировать legacy-сервисы без API, даже если там каждый шаг - через формы, кнопки и окна. Типичная история из РФ: заявка пришла в почту или в Telegram, дальше ее надо руками занести в старую админку, 1С или древний портал, где никакого API не будет еще долго. И все держится на одном человеке, который знает, куда нажать. Сейчас это можно отдать ai агенту: он видит интерфейс и действует по задаче, а не по жесткому скрипту. Ниже будет три вывода: когда брать browser-use, когда нужен computer-use, и как собрать гибрид с Make.com так, чтобы оно само восстанавливалось и не делало критичные действия без подтверждения.

Что делаем: фиксируем, где начинается legacy-интерфейс и какие данные туда надо донести (поля, вложения, статусы). Зачем: Make.com удобнее держит условия, расписания и маршрутизацию,

Оглавление

Как автоматизировать legacy-сервис без API: 7 шагов
Шаг 1. Отделите логику от «финальной мили»
Шаг 2. Выберите тип агента: browser-use или computer-use

Текст подготовил: Андрей Федорчук

Browser-use и computer-use агенты - это Agentic AI, который управляет интерфейсом как человек: кликает, вводит, проверяет результат. Выгода простая: можно автоматизировать legacy-сервисы без API, даже если там каждый шаг - через формы, кнопки и окна.

Типичная история из РФ: заявка пришла в почту или в Telegram, дальше ее надо руками занести в старую админку, 1С или древний портал, где никакого API не будет еще долго. И все держится на одном человеке, который знает, куда нажать.

Сейчас это можно отдать ai агенту: он видит интерфейс и действует по задаче, а не по жесткому скрипту. Ниже будет три вывода: когда брать browser-use, когда нужен computer-use, и как собрать гибрид с Make.com так, чтобы оно само восстанавливалось и не делало критичные действия без подтверждения.

Как автоматизировать legacy-сервис без API: 7 шагов

Шаг 1. Отделите логику от «финальной мили»

Что делаем: фиксируем, где начинается legacy-интерфейс и какие данные туда надо донести (поля, вложения, статусы).

Зачем: Make.com удобнее держит условия, расписания и маршрутизацию, а агенту оставляем только ввод в форму.

Типичная ошибка: пытаться «впихнуть» в агента всю бизнес-логику и обработку исключений, а потом удивляться хаосу.

Мини-пример РФ: письмо со счетом упало на общий ящик, Make.com вытащил реквизиты и собрал JSON, а агент заносит только сумму, контрагента и номер в старую веб-админку.

Шаг 2. Выберите тип агента: browser-use или computer-use

Что делаем: проверяем, где живет интерфейс - в браузере или в десктопе.

Зачем: browser-use видит DOM и элементы страницы, а computer-use работает по скриншотам и подходит для 1С, старых ERP и Delphi-приложений.

Типичная ошибка: идти в browser-use там, где все рисуется «как картинка» или открывается только в толстом клиенте.

Мини-пример РФ: внутренний SharePoint и госпорталы чаще закрываются browser-use, а бухгалтерский ввод в 1С логичнее делать через computer-use.

Шаг 3. Соберите связку Make.com — Webhook — агент на Python

Что делаем: в Make.com ставим Webhook и отправляем команду на ваш сервер с Python (где крутится browser-use через Playwright, или прокси к computer-use).

Зачем: Make.com остается «мозгом» процесса, агент - руками.

Типичная ошибка: делать агент «одиночкой» без внешнего оркестратора, потом сложно мониторить и перезапускать.

Мини-пример РФ: событие из Telegram-бота (новая заявка) -> Make.com валидирует поля -> Webhook отправляет задачу агенту «создай заявку в старом кабинете подрядчика».

Шаг 4. Дайте агенту устойчивые якоря в интерфейсе

Что делаем: в промпте/инструкциях описываем, как искать элементы не по ID, а по текстам, соседним блокам и визуальным признакам. Это особенно полезно в Shadow DOM и перегруженных страницах.

Зачем: в legacy-верстке идентификаторы и классы часто меняются, а подпись кнопки «Сохранить» остается.

Типичная ошибка: завязаться на один селектор и потерять автоматизацию после первой правки фронта.

Мини-пример РФ: старый SharePoint - агент ищет «Создать» по надписи и проверяет, что рядом появилась форма, а не грузится бесконечный спиннер.

Шаг 5. Добавьте self-healing: проверка после каждого действия

Что делаем: после клика/ввода агент обязан проверить, изменился ли экран, появилось ли нужное поле, ушла ли загрузка. Если нет - повторить или выбрать альтернативный путь.

Зачем: нестабильность - базовая черта старых систем и порталов.

Типичная ошибка: считать клик «успешным» без подтверждения и ехать дальше, накапливая мусор.

Мини-пример РФ: агент нажал «Найти», но таблица не обновилась - он ждет, обновляет страницу, повторяет поиск и только потом выбирает строку «Иванов».

Шаг 6. Встройте human-in-the-loop для критичных кнопок

Что делаем: перед действиями типа платежа, удаления или финального «Сохранить» агент делает скриншот результата и просит подтверждение через Telegram или Slack (модуль в Make.com).

Зачем: даже при точности 90-95% на сложных интерфейсах (уровень Claude 3.5 Sonnet) вам нужен стоп-кран.

Типичная ошибка: запускать «в бою» без ручного подтверждения и надеяться, что агент всегда правильно понял контекст.

Мини-пример РФ: агент заполнил платежку в старом клиент-банке, отправил скрин в Telegram, ждет «ОК» и только после этого жмет финальную кнопку.

Шаг 7. Решите вопрос хостинга и приватности заранее

Что делаем: определяем, где крутится агент и куда уходят данные. Для чувствительных процессов смотрим в сторону локального запуска (Ollama, Llama 3) и минимизации отправляемых фрагментов.

Зачем: legacy-системы часто содержат персональные данные и коммерческие условия.

Типичная ошибка: сначала автоматизировать, а потом выяснить, что политика безопасности не позволяет отправлять скриншоты или содержимое форм наружу.

Мини-пример РФ: агент запускается на выделенной машине в контуре компании, Make.com передает только обезличенный JSON и идентификатор задачи.

Что выбрать для автоматизации без API

Кому это сэкономит время и деньги

Эта схема хорошо окупается там, где ручной ввод держит процесс в заложниках. Особенно если legacy-система меняться не будет, а объем рутины уже «как у отдела».

Бэк-офис и операторы, которые переносят данные между почтой, таблицами и старой админкой.
Бухгалтерия и финансы, где часть операций в 1С/ERP делается вручную по входящим документам.
Продажи и сопровождение, когда лиды приходят в Telegram/почту, а потом их надо заносить в старую CRM без API.
ИТ и автоматизация, которым нужно быстро закрыть «дыры» техдолга без переписывания системы.

Частые вопросы

Browser-use — это просто RPA?

Нет. Классическая RPA часто держится на жестком сценарии. Browser-use подключает LLM, которая управляет браузером через Playwright и может адаптироваться к изменениям верстки, опираясь на DOM и визуальные элементы.

Когда нужен computer-use, а не browser-use?

Когда интерфейс не в браузере: 1С, толстые клиенты ERP, Delphi-приложения. Computer-use работает по скриншотам экрана и имитирует мышь и клавиатуру.

Как Make.com помогает, если у legacy-сервиса нет API?

Make.com собирает события и данные из «нормальных» источников (почта, Telegram, Google Таблицы), делает логику и отправляет задачу агенту через Webhook. Агент выполняет ввод в legacy-интерфейсе как человек.

Как переживать падения и долгие загрузки старых систем?

Закладывайте self-healing: после каждого действия проверяйте, что экран реально изменился. Если нет, агент повторяет действие, ждет загрузку или идет альтернативным путем.

Что делать с Shadow DOM и «плавающими» селекторами?

Смещайте фокус с ID на визуальные якоря: надписи кнопок, соседние элементы, структуру блока. Это снижает зависимость от случайных изменений верстки.

Можно ли запускать агентов локально, чтобы данные не уходили наружу?

Да, есть тренд на privacy-first: локальный запуск через Ollama и модели вроде Llama 3. Это полезно для процессов с чувствительными данными из legacy-систем.

Насколько это быстрее, чем классическая RPA?

По данным исследований внедрения Agentic Workflow, автоматизация систем без API с помощью AI-агентов делается в 3-5 раз быстрее, чем написание классических RPA-скриптов (UiPath, Blue Prism). На практике скорость упирается в качество инструкций, якорей и проверок.

Какая у вас самая «больная» legacy-рутина без API - браузерный кабинет, 1С или что-то совсем древнее? Подпишитесь, я выкладываю схемы Make.com + ai агенты и рабочие шаблоны под такие кейсы.

#автоматизация, #aiагенты, #browseruse

AI kontent Zavod:

Связаться с Андреем
Email
Заказать Нейро-Завод
Нейросмех YouTube
Нейроновости ТГ
Нейрозвук ТГ
Нейрохолст ТГ

Технологии в финансах

65 тыс интересуются