1 подписчик

⚡⚡ Webwright от Microsoft Research заставляет веб-агента писать Playwright-скрипты вместо кликов — и даёт 60.1% на Odysseys

ВчераВчера

1 мин

Веб-агенты перестают быть автоматическими кликерами: они пишут код, а не предсказывают координаты кликов. Webwright выдаёт агенту терминал и позволяет генерировать и запускать скрипты на Playwright (библиотека для автоматизации браузера через DOM). Ключевая разница в подходе: вместо сотен мелких действий агент формирует программу с логикой (поиск элементов, ожидание загрузки, заполнение форм, клик по нужной сущности). Это делает решения более компактными и переиспользуемыми, а «браузерную сессию» превращает в расходник. На бенчмарке Odysseys Webwright с GPT-5.4 даёт 60.1% против 33.5% у базового GPT-5.4 — прирост на 79.4%. Результат хорошо объясняет месседж статьи: архитектура (code-driven), а не только сила модели, сильнее двигает метрику. Авторы отдельно чинят два типовых сбоя: premature done (самопроверка через запуск в чистой папке с логами/скриншотами) и переполнение контекста (историю уплотняют каждые ~20 шагов в резюме). По практическим применениям упор на RPA и тестирование

Ключевая разница в подходе: вместо сотен мелких действий агент формирует программу с логикой (поиск элементов, ожидание загрузки, заполнение форм, клик по нужной сущности). Это делает решения более компактными и переиспользуемыми, а «браузерную сессию» превращает в расходник.

На бенчмарке Odysseys Webwright с GPT-5.4 даёт 60.1% против 33.5% у базового GPT-5.4 — прирост на 79.4%. Результат хорошо объясняет месседж статьи: архитектура (code-driven), а не только сила модели, сильнее двигает метрику.

Авторы отдельно чинят два типовых сбоя: premature done (самопроверка через запуск в чистой папке с логами/скриншотами) и переполнение контекста (историю уплотняют каждые ~20 шагов в резюме). По практическим применениям упор на RPA и тестирование веб-интерфейсов.

Если вам важны агентные сценарии на длинных цепочках шагов, подход Webwright выглядит убедительно: цифры пока не «вытягивают» всё безоговорочно, но динамика против screenshot→клик заметная.

#release #Microsoft #Webwright #agent #Playwright #RPA #testing

🔗 Microsoft Research Releases Webwright: A Terminal-Native Web Agent Framework That Scores 60.1% on Odysseys, Up from Base GPT-5.4’s 33.5%