162 подписчика

Google представила ИИ, который умеет работать в браузере и на Android за вас

21 октября 202521 окт 2025

3 мин

Google вывела автоматизацию на новый уровень, представив в режиме предварительного просмотра специализированную модель Gemini 2.5 Computer Use. Этот ИИ способен напрямую взаимодействовать с графическим интерфейсом — браузером, сайтами и, потенциально, приложениями на Android — выполняя сложные многошаговые задачи по вашему запросу. По сути, вы можете дать ему задание, и он будет «кликать» и «вводить текст» вместо вас. Процесс работы модели построен на непрерывном цикле, который повторяется до полного выполнения задачи: Модель поддерживает широкий набор действий для взаимодействия с веб-страницами: Google показала на видео (на скорости 3x), как модель справляется с реальными задачами: Google заявляет, что по ключевым тестам на управление браузером и мобильным интерфейсом Gemini 2.5 Computer Use обходит конкурентов — Claude и модели от OpenAI — демонстрируя лучшее качество при самой низкой задержке. Модель построена на базе Gemini 2.5 Pro и ее способностей к визуальному анализу и логичес

Оглавление

Как это работает? Цикл «увидел-сделал»
Что конкретно умеет делать этот ИИ?
Примеры задач: от организации до бронирования

Google вывела автоматизацию на новый уровень, представив в режиме предварительного просмотра специализированную модель Gemini 2.5 Computer Use. Этот ИИ способен напрямую взаимодействовать с графическим интерфейсом — браузером, сайтами и, потенциально, приложениями на Android — выполняя сложные многошаговые задачи по вашему запросу. По сути, вы можете дать ему задание, и он будет «кликать» и «вводить текст» вместо вас.

Как это работает? Цикл «увидел-сделал»

Процесс работы модели построен на непрерывном цикле, который повторяется до полного выполнения задачи:

Запрос: Вы отправляете текстовый запрос. Система передает модели ваш запрос, скриншот текущего экрана и историю последних действий.
Анализ: Модель анализирует полученное и генерирует ответ — обычно это команда для действия с интерфейсом (клик, ввод текста и т.д.).
Исполнение: Клиентский код выполняет полученную команду (например, реально нажимает на кнопку в браузере).
Обновление: После действия делается новый скриншот и отправляется обратно в модель, и цикл начинается заново.

Что конкретно умеет делать этот ИИ?

Модель поддерживает широкий набор действий для взаимодействия с веб-страницами:

Кликнуть на элемент
Ввести текст
Наводить курсор
Прокручивать страницу
Перетаскивать элементы (Drag & Drop)
Переходить вперед и назад в истории
Искать в интернете
Переходить по конкретному URL
Использовать комбинации клавиш

Примеры задач: от организации до бронирования

Google показала на видео (на скорости 3x), как модель справляется с реальными задачами:

Пример 1: «С сайта https://tinyurl.com/pet-care-signup найди все данные о любом питомце с пропиской в Калифорнии и добавь их как гостя в мою CRM-систему салона для животных. Затем назначь повторный визит к специалисту Аниме Лавар на 10 октября после 8 утра».
Пример 2: «Мой арт-клуб набросал задачи перед нашей ярмаркой. Доска хаотична, помоги мне организовать задачи по созданным мной категориям. Перейди на sticky-note-jam.web.app и убедись, что заметки находятся в правильных разделах. Перетащи их, если это не так».

Сильные стороны и ограничения

Основная специализация: Модель в первую очередь оптимизирована для работы в веб-браузерах.
Потенциал для Android: По данным внутреннего бенчмарка «AndroidWorld», модель также показывает «многообещающие результаты» для управления интерфейсом на мобильных устройствах.
Не для десктопа: Пока что модель не оптимизирована для управления интерфейсом настольных ОС (например, для кликов в программах на Windows или macOS).

Google заявляет, что по ключевым тестам на управление браузером и мобильным интерфейсом Gemini 2.5 Computer Use обходит конкурентов — Claude и модели от OpenAI — демонстрируя лучшее качество при самой низкой задержке.

Кому это доступно и что под капотом?

Модель построена на базе Gemini 2.5 Pro и ее способностей к визуальному анализу и логическим рассуждениям.

Внутреннее использование: В Google ее уже применяют для автоматического тестирования интерфейсов, что ускоряет разработку ПО.
Для разработчиков: Модель уже доступна в публичном превью через Gemini API в Google AI Studio и Vertex AI для сторонних разработчиков, которые хотят создавать умных ассистентов и инструменты для автоматизации workflows.

Итог: шаг к настоящим ИИ-агентам

Gemini 2.5 Computer Use — это не просто чат-бот. Это практический шаг к созданию цифровых агентов, которые могут самостоятельно выполнять задачи в знакомой нам цифровой среде, экономя наше время и силы. В будущем такие технологии могут кардинально изменить то, как мы взаимодействуем с компьютерами и смартфонами.

А вы готовы доверить ИИ выполнение рутинных задач в вашем браузере? Какая задача стала бы для вас приоритетной для автоматизации? Делитесь в комментариях!