Добавить в корзинуПозвонить
Найти в Дзене
Машинное обучение

Claude Computer Use: Anthropic наконец объяснила, почему агенты промахиваются по кнопкам

Anthropic выложила практический гайд по computer/browser use для Claude. И там не про «магических агентов будущего», а про скучную инженерию, из-за которой агент либо работает, либо кликает мимо кнопки. Главный инсайт: точность кликов часто ломается не из-за модели, а из-за скриншотов. Если отправлять в API нативный 4K-скрин, Claude всё равно может увидеть его в уменьшенном виде. Модель возвращает координаты по одной картинке, а ваш harness кликает по другой системе координат. Итог - стабильные промахи. Что рекомендует Anthropic: - заранее downscale скриншотов - для Claude 4.6 держаться около 1280×720 - для Opus 4.7 можно начинать с 1080p - не отправлять native 4K без подготовки - всегда масштабировать координаты обратно в реальный экран - сначала давать текстовую инструкцию, потом изображение - для мелких UI-элементов включать zoom или использовать клавиатуру - логировать transcript и накладывать predicted clicks поверх скриншота Отдельно интересно про модели. Sonnet 4.6 у них то

Claude Computer Use: Anthropic наконец объяснила, почему агенты промахиваются по кнопкам

Anthropic выложила практический гайд по computer/browser use для Claude. И там не про «магических агентов будущего», а про скучную инженерию, из-за которой агент либо работает, либо кликает мимо кнопки.

Главный инсайт: точность кликов часто ломается не из-за модели, а из-за скриншотов.

Если отправлять в API нативный 4K-скрин, Claude всё равно может увидеть его в уменьшенном виде. Модель возвращает координаты по одной картинке, а ваш harness кликает по другой системе координат. Итог - стабильные промахи.

Что рекомендует Anthropic:

- заранее downscale скриншотов

- для Claude 4.6 держаться около 1280×720

- для Opus 4.7 можно начинать с 1080p

- не отправлять native 4K без подготовки

- всегда масштабировать координаты обратно в реальный экран

- сначала давать текстовую инструкцию, потом изображение

- для мелких UI-элементов включать zoom или использовать клавиатуру

- логировать transcript и накладывать predicted clicks поверх скриншота

Отдельно интересно про модели. Sonnet 4.6 у них точнее для механических кликов, Opus 4.7 уже почти догнал по click accuracy, но даёт больше reasoning и больший pixel budget.

Самый полезный вывод: browser agent - это не «дал промпт и забыл».

Это система из модели, скриншотов, координат, DPI, zoom, DOM, клавиатуры, логов и fallback-методов. Если хотя бы один слой настроен криво, агент будет выглядеть глупым, хотя проблема вообще не в интеллекте модели.

Агенты становятся реальными не тогда, когда модель «умнее».

А тогда, когда вокруг неё собран нормальный runtime.

https://claude.com/blog/best-practices-for-computer-and-browser-use-with-claude