На DevDay 2025 Google представила Gemini 2.5 Computer Use — модель, способную управлять интерфейсами как человек: кликать скроллить, заполнять формы и работать под вашей учётной записью. 💡 Основа — 2.5 Pro, обученная понимать визуал. Она получает скриншот, историю действий и запрос, затем возвращает действие (click, type, scroll). Система выполняет шаг, получает новый скриншот и продолжает цикл до цели. Технология уже используется в Google: восстанавливает до 60 % проваленных пользовательских тестов. Внешние команды применяют её для автоматизации интерфейсов и работы ассистентов. В бенчмарках модель лидирует (Online-Mind2Web, WebVoyager, AndroidWorld). Точность — 70 %+, задержка — ~225 с. Каждый шаг проходит safety-check, а оплаты требуют подтверждения. 📍 Мы подошли к эпохе, где агенты не просто анализируют данные, а действуют — управляют CRM, тестируют интерфейсы и автоматизируют рутину без участия человека. Кликающий ИИ — уже не метафора 🚀 Подпишись на канал #Автоматизация #
На DevDay 2025 Google представила Gemini 2.5 Computer Use — модель, способную управлять интерфейсами как человек: кликать скроллить
2 ноября 20252 ноя 2025
1
~1 мин