Добавить в корзинуПозвонить
Найти в Дзене

ИИ Google научился пользоваться интернетом: Gemini 2.5 теперь сам ходит по сайтам и заполняет формы

Google представила обновлённую версию искусственного интеллекта Gemini 2.5 Pro с функцией Computer Use, позволяющей модели самостоятельно взаимодействовать с веб-страницами. Теперь ИИ может просматривать сайты, нажимать кнопки, прокручивать страницы и заполнять формы — фактически действовать в браузере как человек. Разработкой занималось подразделение DeepMind. По словам главы компании Сундара Пичаи, эта технология «становится важным шагом в создании универсальных ИИ-агентов, способных выполнять реальные действия, а не просто давать ответы». Как это работает Функция реализована в сотрудничестве со стартапом Browserbase, созданным бывшим инженером Twilio Полом Кляйном. Browserbase предоставляет виртуальный браузер без графического интерфейса, где ИИ взаимодействует с сайтами напрямую через API. Такой подход позволяет обучать и тестировать модели в контролируемой среде, без участия человека. Для пользователей создана площадка Browser Arena, где можно сравнить работу моделей Google, OpenA

Google представила обновлённую версию искусственного интеллекта Gemini 2.5 Pro с функцией Computer Use, позволяющей модели самостоятельно взаимодействовать с веб-страницами. Теперь ИИ может просматривать сайты, нажимать кнопки, прокручивать страницы и заполнять формы — фактически действовать в браузере как человек.

Разработкой занималось подразделение DeepMind. По словам главы компании Сундара Пичаи, эта технология «становится важным шагом в создании универсальных ИИ-агентов, способных выполнять реальные действия, а не просто давать ответы».

Как это работает

Функция реализована в сотрудничестве со стартапом Browserbase, созданным бывшим инженером Twilio Полом Кляйном. Browserbase предоставляет виртуальный браузер без графического интерфейса, где ИИ взаимодействует с сайтами напрямую через API.

Такой подход позволяет обучать и тестировать модели в контролируемой среде, без участия человека. Для пользователей создана площадка Browser Arena, где можно сравнить работу моделей Google, OpenAI и Anthropic.

Многоуровневая система безопасности

Так как Gemini получает прямой доступ к интернет-интерфейсам, Google внедрила строгий контроль действий модели.
Каждый шаг проверяется службой безопасности, а разработчики могут задавать собственные ограничения — например,
запрещать покупки или требовать ручное подтверждение при работе с личными данными.

Модель не выполняет действия, нарушающие политику Google, и при встрече с CAPTCHA просит вмешательства пользователя, чтобы исключить полностью автономное поведение.

Цена и лицензирование

Стоимость использования функции почти совпадает с базовой моделью Gemini 2.5 Pro:

  • входные токены — от $1,25 за миллион (до 200 000 токенов);
  • выходные — от $10 за миллион.

Главное отличие — отсутствие бесплатного уровня: если Gemini 2.5 Pro доступна в Google AI Studio, то Computer Use с самого начала тарифицируется.
Компания подчёркивает, что
данные платных пользователей не используются для дообучения, что делает сервис привлекательным для корпоративного сегмента.

От чат-ботов к цифровым агентам

Запуск Computer Use знаменует переход Google от диалоговых систем к действующим ИИ-агентам.
Если ChatGPT Agent и Claude Sonnet умеют работать с файлами и локальными данными, то Gemini делает ставку на
визуальное взаимодействие с реальными интерфейсами — от браузеров до мобильных приложений.

По мнению экспертов, подобные агенты станут ключевым элементом будущей цифровой автоматизации: они смогут бронировать билеты, подавать заявки, проходить регистрации, управлять аккаунтами и даже вести переговоры онлайн — в пределах заданных полномочий.

Источник: https://hightech.plus/2025/10/08/ii-google-teper-mozhet-sam-hodit-po-saitam-nazhimat-knopki-i-zapoln...

Больше интересного – на медиапортале https://www.cta.ru/

Google
89,1 тыс интересуются