Добавить в корзинуПозвонить
Найти в Дзене

Google представила ИИ, который умеет работать в браузере и на Android за вас

Google вывела автоматизацию на новый уровень, представив в режиме предварительного просмотра специализированную модель Gemini 2.5 Computer Use. Этот ИИ способен напрямую взаимодействовать с графическим интерфейсом — браузером, сайтами и, потенциально, приложениями на Android — выполняя сложные многошаговые задачи по вашему запросу. По сути, вы можете дать ему задание, и он будет «кликать» и «вводить текст» вместо вас. Процесс работы модели построен на непрерывном цикле, который повторяется до полного выполнения задачи: Модель поддерживает широкий набор действий для взаимодействия с веб-страницами: Google показала на видео (на скорости 3x), как модель справляется с реальными задачами: Google заявляет, что по ключевым тестам на управление браузером и мобильным интерфейсом Gemini 2.5 Computer Use обходит конкурентов — Claude и модели от OpenAI — демонстрируя лучшее качество при самой низкой задержке. Модель построена на базе Gemini 2.5 Pro и ее способностей к визуальному анализу и логичес
Оглавление
Gemini 2.5 Computer Use
Gemini 2.5 Computer Use

Google вывела автоматизацию на новый уровень, представив в режиме предварительного просмотра специализированную модель Gemini 2.5 Computer Use. Этот ИИ способен напрямую взаимодействовать с графическим интерфейсом — браузером, сайтами и, потенциально, приложениями на Android — выполняя сложные многошаговые задачи по вашему запросу. По сути, вы можете дать ему задание, и он будет «кликать» и «вводить текст» вместо вас.

Как это работает? Цикл «увидел-сделал»

Процесс работы модели построен на непрерывном цикле, который повторяется до полного выполнения задачи:

  1. Запрос: Вы отправляете текстовый запрос. Система передает модели ваш запрос, скриншот текущего экрана и историю последних действий.
  2. Анализ: Модель анализирует полученное и генерирует ответ — обычно это команда для действия с интерфейсом (клик, ввод текста и т.д.).
  3. Исполнение: Клиентский код выполняет полученную команду (например, реально нажимает на кнопку в браузере).
  4. Обновление: После действия делается новый скриншот и отправляется обратно в модель, и цикл начинается заново.

Что конкретно умеет делать этот ИИ?

Модель поддерживает широкий набор действий для взаимодействия с веб-страницами:

  • Кликнуть на элемент
  • Ввести текст
  • Наводить курсор
  • Прокручивать страницу
  • Перетаскивать элементы (Drag & Drop)
  • Переходить вперед и назад в истории
  • Искать в интернете
  • Переходить по конкретному URL
  • Использовать комбинации клавиш

Примеры задач: от организации до бронирования

Google показала на видео (на скорости 3x), как модель справляется с реальными задачами:

  • Пример 1: «С сайта https://tinyurl.com/pet-care-signup найди все данные о любом питомце с пропиской в Калифорнии и добавь их как гостя в мою CRM-систему салона для животных. Затем назначь повторный визит к специалисту Аниме Лавар на 10 октября после 8 утра».
  • Пример 2: «Мой арт-клуб набросал задачи перед нашей ярмаркой. Доска хаотична, помоги мне организовать задачи по созданным мной категориям. Перейди на sticky-note-jam.web.app и убедись, что заметки находятся в правильных разделах. Перетащи их, если это не так».

Сильные стороны и ограничения

  • Основная специализация: Модель в первую очередь оптимизирована для работы в веб-браузерах.
  • Потенциал для Android: По данным внутреннего бенчмарка «AndroidWorld», модель также показывает «многообещающие результаты» для управления интерфейсом на мобильных устройствах.
  • Не для десктопа: Пока что модель не оптимизирована для управления интерфейсом настольных ОС (например, для кликов в программах на Windows или macOS).

Google заявляет, что по ключевым тестам на управление браузером и мобильным интерфейсом Gemini 2.5 Computer Use обходит конкурентов — Claude и модели от OpenAI — демонстрируя лучшее качество при самой низкой задержке.

Кому это доступно и что под капотом?

Модель построена на базе Gemini 2.5 Pro и ее способностей к визуальному анализу и логическим рассуждениям.

  • Внутреннее использование: В Google ее уже применяют для автоматического тестирования интерфейсов, что ускоряет разработку ПО.
  • Для разработчиков: Модель уже доступна в публичном превью через Gemini API в Google AI Studio и Vertex AI для сторонних разработчиков, которые хотят создавать умных ассистентов и инструменты для автоматизации workflows.

Итог: шаг к настоящим ИИ-агентам

Gemini 2.5 Computer Use — это не просто чат-бот. Это практический шаг к созданию цифровых агентов, которые могут самостоятельно выполнять задачи в знакомой нам цифровой среде, экономя наше время и силы. В будущем такие технологии могут кардинально изменить то, как мы взаимодействуем с компьютерами и смартфонами.

А вы готовы доверить ИИ выполнение рутинных задач в вашем браузере? Какая задача стала бы для вас приоритетной для автоматизации? Делитесь в комментариях!