Найти в Дзене
File Energy

Как Gemini берет управление экраном смартфона и автоматизирует заказы поездки и повседневные транзакции через screen automation

Смартфон лежит на столе, а вы просто говорите вслух: закажи пиццу с двойным сыром и доставь через час. Экран оживает сам. Приложение открывается, пальцы не нужны. ИИ выбирает ресторан, добавляет toppings, вводит адрес, подтверждает оплату. Всё происходит на глазах, но без вашего участия. Новая функция Gemini обещает именно это. Искусственный интеллект переходит от советов к реальным действиям внутри приложений. Он размещает заказы, бронирует поездки, выполняет рутину. Граница между помощником и исполнителем стирается. Функция скрыта под кодовым именем bonobo. Разбор бета-версии приложения Google выявил строки, описывающие screen automation. Gemini получает доступ к интерфейсу поддерживаемых программ. Вместо текстовых инструкций он действует напрямую: кликает кнопки, заполняет поля, прокручивает списки. По сути, это агент, который видит экран так же, как человек, и принимает решения на основе контекста. Технология опирается на анализ интерфейса в реальном времени. Gemini сканирует элеме
Оглавление

Смартфон лежит на столе, а вы просто говорите вслух: закажи пиццу с двойным сыром и доставь через час. Экран оживает сам. Приложение открывается, пальцы не нужны. ИИ выбирает ресторан, добавляет toppings, вводит адрес, подтверждает оплату. Всё происходит на глазах, но без вашего участия. Новая функция Gemini обещает именно это. Искусственный интеллект переходит от советов к реальным действиям внутри приложений. Он размещает заказы, бронирует поездки, выполняет рутину. Граница между помощником и исполнителем стирается.

Функция скрыта под кодовым именем bonobo. Разбор бета-версии приложения Google выявил строки, описывающие screen automation. Gemini получает доступ к интерфейсу поддерживаемых программ. Вместо текстовых инструкций он действует напрямую: кликает кнопки, заполняет поля, прокручивает списки. По сути, это агент, который видит экран так же, как человек, и принимает решения на основе контекста.

Как именно ИИ видит и действует

Технология опирается на анализ интерфейса в реальном времени. Gemini сканирует элементы экрана: кнопки, поля ввода, меню. Модель понимает семантику. Кнопка "Добавить в корзину" распознается по тексту и положению. Алгоритм строит дерево действий, выбирая оптимальный путь к цели.

Процесс выглядит плавно и последовательно.

Вот основные этапы выполнения задачи:

  • Распознавание текущего приложения и его состояния
  • Поиск нужных элементов по тексту, иконкам или описанию
  • Симуляция тапов и свайпов для навигации
  • Заполнение форм на основе пользовательских предпочтений
  • Подтверждение финальных шагов с паузой для проверки

Один пользователь мог бы описать: сказал бронировать такси до аэропорта, а Gemini открыл приложение, выбрал машину, указал время и показал итоговую цену. Всё за секунды. Контраст с ручным поиском разительный. Раньше тратили минуты на клики, теперь достаточно голосовой команды.

Честно говоря, такая автономия завораживает. Но где заканчивается удобство и начинается риск?

Ответственность остается за человеком

Google подчеркивает важные предупреждения. Gemini может ошибаться. Неправильный выбор опций, неверное чтение экрана приводят к неожиданным результатам. Пользователь несет полную ответственность за все действия ИИ. Компания советует внимательно наблюдать за процессом.

Функция не предназначена для экстренных ситуаций. Бронирование скорой помощи или критические платежи лучше выполнять вручную. Можно прервать агента в любой момент, взяв управление на себя. Экран показывает индикатор активности, а голосовое команду "стоп" мгновенно останавливает выполнение.

Многие задаются вопросом: готов ли человек доверять ИИ в повседневных транзакциях? Один мог бы вспомнить, как раньше боялись автопилота в машинах, а теперь ездят спокойно.

Вопросы приватности на поверхности

Доступ к экрану поднимает острые темы конфиденциальности. Когда Gemini работает, он анализирует содержимое дисплея. Если включена опция сохранения активности, скриншоты могут отправляться ревьюерам для улучшения модели. Это помогает обучению, но раскрывает личные данные.

Компания строго рекомендует не вводить логины или платежные детали прямо в чат с Gemini. Лучше позволить ИИ действовать внутри защищенных приложений. Там данные шифруются по стандартам банковского уровня.

По сути, приватность строится на балансе. Пользователь видит каждый шаг, но делегирует рутину. А что если скриншот захватит лишнее? Такие риски требуют осознанного подхода.

Корни в амбициозных проектах

Функция продолжает линию Project Astra, представленного на конференции разработчиков. Тогда Google говорил о старте эры агентов ИИ. Эти системы действуют от имени человека, понимая контекст и окружение. Bonobo воплощает эту идею на мобильных устройствах.

Запуск ожидается с обновлением Android 16 QPR3. На старте поддержка ограничится популярными сервисами доставки еды и вызова такси. Постепенно список приложений расширится.

Такие шаги показывают эволюцию. Искусственный интеллект перестает быть пассивным отвечателем. Он становится активным помощником, берущим на себя механическую работу. Удобство растет, но вместе с ним и необходимость контроля. Gemini открывает дверь в мир, где смартфон выполняет задачи сам, оставляя человеку роль наблюдателя и корректора. Это напоминание: технологии служат людям, но только когда те держат руку на пульсе. Будущее мобильных помощников выглядит многообещающе, полное автоматизации и новых возможностей для повседневной жизни.

👉 Подписывайтесь на канал в Telegram https://t.me/fileenergycom