ИИ Google научился пользоваться интернетом: Gemini 2.5 теперь сам ходит по сайтам и заполняет формы

9 октября 20259 окт 2025

134

2 мин

Google представила обновлённую версию искусственного интеллекта Gemini 2.5 Pro с функцией Computer Use, позволяющей модели самостоятельно взаимодействовать с веб-страницами. Теперь ИИ может просматривать сайты, нажимать кнопки, прокручивать страницы и заполнять формы — фактически действовать в браузере как человек. Разработкой занималось подразделение DeepMind. По словам главы компании Сундара Пичаи, эта технология «становится важным шагом в создании универсальных ИИ-агентов, способных выполнять реальные действия, а не просто давать ответы». Как это работает Функция реализована в сотрудничестве со стартапом Browserbase, созданным бывшим инженером Twilio Полом Кляйном. Browserbase предоставляет виртуальный браузер без графического интерфейса, где ИИ взаимодействует с сайтами напрямую через API. Такой подход позволяет обучать и тестировать модели в контролируемой среде, без участия человека. Для пользователей создана площадка Browser Arena, где можно сравнить работу моделей Google, OpenA

Разработкой занималось подразделение DeepMind. По словам главы компании Сундара Пичаи, эта технология «становится важным шагом в создании универсальных ИИ-агентов, способных выполнять реальные действия, а не просто давать ответы».

Как это работает

Функция реализована в сотрудничестве со стартапом Browserbase, созданным бывшим инженером Twilio Полом Кляйном. Browserbase предоставляет виртуальный браузер без графического интерфейса, где ИИ взаимодействует с сайтами напрямую через API.

Такой подход позволяет обучать и тестировать модели в контролируемой среде, без участия человека. Для пользователей создана площадка Browser Arena, где можно сравнить работу моделей Google, OpenAI и Anthropic.

Многоуровневая система безопасности

Так как Gemini получает прямой доступ к интернет-интерфейсам, Google внедрила строгий контроль действий модели.
Каждый шаг проверяется службой безопасности, а разработчики могут задавать собственные ограничения — например, запрещать покупки или требовать ручное подтверждение при работе с личными данными.

Модель не выполняет действия, нарушающие политику Google, и при встрече с CAPTCHA просит вмешательства пользователя, чтобы исключить полностью автономное поведение.

Цена и лицензирование

Стоимость использования функции почти совпадает с базовой моделью Gemini 2.5 Pro:

входные токены — от $1,25 за миллион (до 200 000 токенов);
выходные — от $10 за миллион.

Главное отличие — отсутствие бесплатного уровня: если Gemini 2.5 Pro доступна в Google AI Studio, то Computer Use с самого начала тарифицируется.
Компания подчёркивает, что данные платных пользователей не используются для дообучения, что делает сервис привлекательным для корпоративного сегмента.

От чат-ботов к цифровым агентам

Запуск Computer Use знаменует переход Google от диалоговых систем к действующим ИИ-агентам.
Если ChatGPT Agent и Claude Sonnet умеют работать с файлами и локальными данными, то Gemini делает ставку на визуальное взаимодействие с реальными интерфейсами — от браузеров до мобильных приложений.

По мнению экспертов, подобные агенты станут ключевым элементом будущей цифровой автоматизации: они смогут бронировать билеты, подавать заявки, проходить регистрации, управлять аккаунтами и даже вести переговоры онлайн — в пределах заданных полномочий.

Источник: https://hightech.plus/2025/10/08/ii-google-teper-mozhet-sam-hodit-po-saitam-nazhimat-knopki-i-zapoln...

Больше интересного – на медиапортале https://www.cta.ru/

Google

89,1 тыс интересуются