Anthropic выложила практический гайд по computer/browser use для Claude. И там не про «магических агентов будущего», а про скучную инженерию, из-за которой агент либо работает, либо кликает мимо кнопки. Главный инсайт: точность кликов часто ломается не из-за модели, а из-за скриншотов. Если отправлять в API нативный 4K-скрин, Claude всё равно может увидеть его в уменьшенном виде. Модель возвращает координаты по одной картинке, а ваш harness кликает по другой системе координат. Итог - стабильные промахи. Что рекомендует Anthropic: - заранее downscale скриншотов - для Claude 4.6 держаться около 1280×720 - для Opus 4.7 можно начинать с 1080p - не отправлять native 4K без подготовки - всегда масштабировать координаты обратно в реальный экран - сначала давать текстовую инструкцию, потом изображение - для мелких UI-элементов включать zoom или использовать клавиатуру - логировать transcript и накладывать predicted clicks поверх скриншота Отдельно интересно про модели. Sonnet 4.6 у них то
Claude Computer Use: Anthropic наконец объяснила, почему агенты промахиваются по кнопкам
19 мая19 мая
72
1 мин