Текст подготовил: Андрей Федорчук
Browser-use и computer-use агенты - это Agentic AI, который управляет интерфейсом как человек: кликает, вводит, проверяет результат. Выгода простая: можно автоматизировать legacy-сервисы без API, даже если там каждый шаг - через формы, кнопки и окна.
Типичная история из РФ: заявка пришла в почту или в Telegram, дальше ее надо руками занести в старую админку, 1С или древний портал, где никакого API не будет еще долго. И все держится на одном человеке, который знает, куда нажать.
Сейчас это можно отдать ai агенту: он видит интерфейс и действует по задаче, а не по жесткому скрипту. Ниже будет три вывода: когда брать browser-use, когда нужен computer-use, и как собрать гибрид с Make.com так, чтобы оно само восстанавливалось и не делало критичные действия без подтверждения.
Как автоматизировать legacy-сервис без API: 7 шагов
Шаг 1. Отделите логику от «финальной мили»
Что делаем: фиксируем, где начинается legacy-интерфейс и какие данные туда надо донести (поля, вложения, статусы).
Зачем: Make.com удобнее держит условия, расписания и маршрутизацию, а агенту оставляем только ввод в форму.
Типичная ошибка: пытаться «впихнуть» в агента всю бизнес-логику и обработку исключений, а потом удивляться хаосу.
Мини-пример РФ: письмо со счетом упало на общий ящик, Make.com вытащил реквизиты и собрал JSON, а агент заносит только сумму, контрагента и номер в старую веб-админку.
Шаг 2. Выберите тип агента: browser-use или computer-use
Что делаем: проверяем, где живет интерфейс - в браузере или в десктопе.
Зачем: browser-use видит DOM и элементы страницы, а computer-use работает по скриншотам и подходит для 1С, старых ERP и Delphi-приложений.
Типичная ошибка: идти в browser-use там, где все рисуется «как картинка» или открывается только в толстом клиенте.
Мини-пример РФ: внутренний SharePoint и госпорталы чаще закрываются browser-use, а бухгалтерский ввод в 1С логичнее делать через computer-use.
Шаг 3. Соберите связку Make.com — Webhook — агент на Python
Что делаем: в Make.com ставим Webhook и отправляем команду на ваш сервер с Python (где крутится browser-use через Playwright, или прокси к computer-use).
Зачем: Make.com остается «мозгом» процесса, агент - руками.
Типичная ошибка: делать агент «одиночкой» без внешнего оркестратора, потом сложно мониторить и перезапускать.
Мини-пример РФ: событие из Telegram-бота (новая заявка) -> Make.com валидирует поля -> Webhook отправляет задачу агенту «создай заявку в старом кабинете подрядчика».
Шаг 4. Дайте агенту устойчивые якоря в интерфейсе
Что делаем: в промпте/инструкциях описываем, как искать элементы не по ID, а по текстам, соседним блокам и визуальным признакам. Это особенно полезно в Shadow DOM и перегруженных страницах.
Зачем: в legacy-верстке идентификаторы и классы часто меняются, а подпись кнопки «Сохранить» остается.
Типичная ошибка: завязаться на один селектор и потерять автоматизацию после первой правки фронта.
Мини-пример РФ: старый SharePoint - агент ищет «Создать» по надписи и проверяет, что рядом появилась форма, а не грузится бесконечный спиннер.
Шаг 5. Добавьте self-healing: проверка после каждого действия
Что делаем: после клика/ввода агент обязан проверить, изменился ли экран, появилось ли нужное поле, ушла ли загрузка. Если нет - повторить или выбрать альтернативный путь.
Зачем: нестабильность - базовая черта старых систем и порталов.
Типичная ошибка: считать клик «успешным» без подтверждения и ехать дальше, накапливая мусор.
Мини-пример РФ: агент нажал «Найти», но таблица не обновилась - он ждет, обновляет страницу, повторяет поиск и только потом выбирает строку «Иванов».
Шаг 6. Встройте human-in-the-loop для критичных кнопок
Что делаем: перед действиями типа платежа, удаления или финального «Сохранить» агент делает скриншот результата и просит подтверждение через Telegram или Slack (модуль в Make.com).
Зачем: даже при точности 90-95% на сложных интерфейсах (уровень Claude 3.5 Sonnet) вам нужен стоп-кран.
Типичная ошибка: запускать «в бою» без ручного подтверждения и надеяться, что агент всегда правильно понял контекст.
Мини-пример РФ: агент заполнил платежку в старом клиент-банке, отправил скрин в Telegram, ждет «ОК» и только после этого жмет финальную кнопку.
Шаг 7. Решите вопрос хостинга и приватности заранее
Что делаем: определяем, где крутится агент и куда уходят данные. Для чувствительных процессов смотрим в сторону локального запуска (Ollama, Llama 3) и минимизации отправляемых фрагментов.
Зачем: legacy-системы часто содержат персональные данные и коммерческие условия.
Типичная ошибка: сначала автоматизировать, а потом выяснить, что политика безопасности не позволяет отправлять скриншоты или содержимое форм наружу.
Мини-пример РФ: агент запускается на выделенной машине в контуре компании, Make.com передает только обезличенный JSON и идентификатор задачи.
Что выбрать для автоматизации без API
Кому это сэкономит время и деньги
Эта схема хорошо окупается там, где ручной ввод держит процесс в заложниках. Особенно если legacy-система меняться не будет, а объем рутины уже «как у отдела».
- Бэк-офис и операторы, которые переносят данные между почтой, таблицами и старой админкой.
- Бухгалтерия и финансы, где часть операций в 1С/ERP делается вручную по входящим документам.
- Продажи и сопровождение, когда лиды приходят в Telegram/почту, а потом их надо заносить в старую CRM без API.
- ИТ и автоматизация, которым нужно быстро закрыть «дыры» техдолга без переписывания системы.
Частые вопросы
Browser-use — это просто RPA?
Нет. Классическая RPA часто держится на жестком сценарии. Browser-use подключает LLM, которая управляет браузером через Playwright и может адаптироваться к изменениям верстки, опираясь на DOM и визуальные элементы.
Когда нужен computer-use, а не browser-use?
Когда интерфейс не в браузере: 1С, толстые клиенты ERP, Delphi-приложения. Computer-use работает по скриншотам экрана и имитирует мышь и клавиатуру.
Как Make.com помогает, если у legacy-сервиса нет API?
Make.com собирает события и данные из «нормальных» источников (почта, Telegram, Google Таблицы), делает логику и отправляет задачу агенту через Webhook. Агент выполняет ввод в legacy-интерфейсе как человек.
Как переживать падения и долгие загрузки старых систем?
Закладывайте self-healing: после каждого действия проверяйте, что экран реально изменился. Если нет, агент повторяет действие, ждет загрузку или идет альтернативным путем.
Что делать с Shadow DOM и «плавающими» селекторами?
Смещайте фокус с ID на визуальные якоря: надписи кнопок, соседние элементы, структуру блока. Это снижает зависимость от случайных изменений верстки.
Можно ли запускать агентов локально, чтобы данные не уходили наружу?
Да, есть тренд на privacy-first: локальный запуск через Ollama и модели вроде Llama 3. Это полезно для процессов с чувствительными данными из legacy-систем.
Насколько это быстрее, чем классическая RPA?
По данным исследований внедрения Agentic Workflow, автоматизация систем без API с помощью AI-агентов делается в 3-5 раз быстрее, чем написание классических RPA-скриптов (UiPath, Blue Prism). На практике скорость упирается в качество инструкций, якорей и проверок.
Какая у вас самая «больная» legacy-рутина без API - браузерный кабинет, 1С или что-то совсем древнее? Подпишитесь, я выкладываю схемы Make.com + ai агенты и рабочие шаблоны под такие кейсы.
#автоматизация, #aiагенты, #browseruse
AI kontent Zavod:
Связаться с Андреем
Email
Заказать Нейро-Завод
Нейросмех YouTube
Нейроновости ТГ
Нейрозвук ТГ
Нейрохолст ТГ