За последние несколько месяцев Apple выпустила непрерывный поток исследовательских работ, в которых подробно описывается ее работа с генеративным искусственным интеллектом. До сих пор Apple хранила молчание о том, что именно готовится в ее исследовательских лабораториях, в то время как ходят слухи, что Apple ведет переговоры с Google о лицензировании ее ИИ Gemini для iPhone.
Но было несколько тизеров того, что мы можем ожидать. В феврале в исследовательском документе Apple подробно описала модель с открытым исходным кодом под названием MLLM-Guided Image Editing (MGIE), которая способна редактировать медиафайлы, используя инструкции на естественном языке от пользователей. Теперь еще одна исследовательская работа Ferret UI привела сообщество ИИ в ярость.
Идея заключается в том, чтобы использовать мультимодальный ИИ (понимающий как тексты, так и мультимедийные ресурсы) для лучшего понимания элементов мобильного пользовательского интерфейса. - И, что самое важное, давать полезные советы. Это критически важная цель, поскольку инженеры стремятся сделать ИИ более полезным для рядового пользователя смартфона, чем нынешний статус "салонного фокуса".
В этом направлении наибольшее внимание уделяется тому, чтобы отключить возможности генеративного ИИ от облака, отказаться от необходимости подключения к Интернету и развернуть каждую задачу на устройстве, чтобы она выполнялась быстрее и безопаснее. Возьмем, к примеру, Gemini от Google, который работает локально на телефонах серий Google Pixel и Samsung Galaxy S24, а вскоре и на телефонах OnePlus, и выполняет такие задачи, как обобщение и перевод.
Что такое пользовательский интерфейс Ferret от Apple?
С помощью Ferret-UI Apple, похоже, стремится объединить умные способности мультимодальной модели ИИ с iOS. На данный момент в центре внимания находятся такие "элементарные" задачи, как "распознавание иконок, поиск текста и перечисление виджетов". Однако речь идет не только об осмыслении того, что отображается на экране iPhone, но и о логическом понимании этого и ответе на контекстные запросы пользователей с помощью своих рассуждений.
Проще всего описать возможности Ferret UI как интеллектуальную систему оптического распознавания символов (OCR), работающую на основе искусственного интеллекта. "После обучения на наборе данных Ferret-UI демонстрирует превосходное понимание экранов пользовательского интерфейса и способность выполнять открытые инструкции", - отмечается в исследовательской работе. Команда, создавшая Ferret UI, настроила его на работу с "любым разрешением".
Вы можете задавать вопросы вроде "Безопасно ли это приложение для моего 12-летнего ребенка?" во время серфинга в App Store. В таких ситуациях ИИ прочитает возрастной рейтинг приложения и, соответственно, предоставит ответ. Как будет подан ответ - в текстовом или звуковом виде - не уточняется, поскольку в документе не упоминается ни Siri, ни какой-либо другой виртуальный помощник, если на то пошло.
Apple не слишком далеко упала от дерева GPT
Но идеи гораздо более масштабны и умны. Спросите его "Как я могу поделиться приложением с другом?", и ИИ выделит на экране иконку "поделиться". Конечно, он подскажет вам, что именно мелькает на экране, но в то же время он логически проанализирует визуальные активы на экране - коробки, кнопки, картинки, иконки и многое другое. Это большая победа в области доступности.
Если вы хотите услышать технические термины, то в статье эти возможности называются "разговор о восприятии", "функциональный вывод" и "разговор о взаимодействии". В одном из описаний исследовательской работы возможности Ferret UI описываются как "первый MLLM, предназначенный для выполнения точных задач перенаправления и заземления, специфичных для экранов пользовательского интерфейса, и в то же время умело интерпретирующий и действующий на основе открытых языковых инструкций".
В результате он может описывать скриншоты, рассказывать, что делает тот или иной актив при нажатии, и определять, является ли что-то на экране интерактивным при сенсорном вводе. Ferret UI не является исключительно собственным проектом. Вместо этого для рассуждений и описаний он использует технологию GPT-4 от OpenAI, на основе которой работает ChatGPT, а также множество других разговорных продуктов.
Примечательно, что предложенная в статье версия подходит для разных соотношений сторон. В дополнение к возможностям анализа и рассуждений на экране, в статье также описывается несколько расширенных возможностей, которые просто поражают воображение. Например, на скриншоте ниже показано, что система способна не только анализировать рукописный текст, но и предсказывать правильную версию по ошибкам пользователя.
MIt также способен точно прочитать текст, обрезанный по верхнему или нижнему краю, который в противном случае потребовал бы вертикальной прокрутки. Однако он не идеален. В некоторых случаях он ошибочно определяет кнопку как вкладку и неправильно читает активы, в которых изображения и текст объединены в один блок.
В сравнении с моделью GPT-4V от OpenAI, Ferret UI продемонстрировал впечатляющий уровень взаимодействия с собеседником, когда ему задавали вопросы, связанные с экранным контентом. Как видно на изображении ниже, Ferret UI предпочитает более краткие и прямые ответы, в то время как GPT-4V пишет более подробные ответы.
Выбор субъективен, но если бы я спросил ИИ: "Как мне купить туфельку, появляющуюся на экране", я бы предпочел, чтобы он просто подсказал мне правильные шаги как можно меньшим количеством слов. Но Ferret UI прекрасно справился не только с лаконичностью, но и с точностью. В вышеупомянутой задаче Ferret UI набрал 91,7 % при выводе разговорного взаимодействия, а GPT-4V лишь немного опередил его с точностью 93,4 %.
Вселенная интригующих возможностей
Ferret UI знаменует собой впечатляющий дебют ИИ, способного понимать действия на экране. Но прежде чем мы слишком увлечемся открывающимися возможностями, мы не уверены, как именно Apple собирается интегрировать эту технологию в iOS, и будет ли она реализована вообще, по нескольким причинам. Bloomberg недавно сообщил, что Apple осознает, что отстает в гонке ИИ, и это вполне очевидно по отсутствию собственных продуктов генеративного ИИ в экосистеме Apple.
Во-первых, слухи о том, что Apple даже рассматривает возможность лицензирования Gemini у Google или OpenAI, говорят о том, что собственные наработки Apple не соответствуют уровню конкурентов. При таком сценарии использование уже проделанной Google работы с Gemini (которая сейчас пытается заменить Google Assistant на телефонах) было бы более разумным, чем продвижение полуфабриката ИИ на iPhone и iPad.
У Apple явно есть амбициозные идеи, и она продолжает работать над ними, о чем свидетельствуют эксперименты, подробно описанные в многочисленных научных работах. Однако даже если Apple удастся реализовать обещания Ferret UI в рамках iOS, это все равно будет поверхностная реализация генеративного ИИ на устройстве.
Однако функциональные интеграции, даже если они ограничены только собственными предустановленными приложениями, могут дать потрясающие результаты. Например, допустим, вы читаете электронное письмо, а ИИ уже оценил содержимое экрана в фоновом режиме. Пока вы читаете сообщение в приложении Mail, вы можете попросить ИИ голосовой командой сделать из него запись в календаре и сохранить ее в своем расписании.
Это не обязательно должна быть сверхсложная многоэтапная работа, включающая несколько приложений. Скажем, вы просматриваете страницу знаний о ресторане в Google Search, и, просто сказав "позвонить в это место", ИИ считывает номер телефона на экране, копирует его в номеронабиратель и начинает звонок.
Или, допустим, вы читаете твит о фильме, выходящем 6 апреля, и говорите ИИ создать ярлык, направленный на приложение Fandango. Или пост о пляже во Вьетнаме вдохновляет вас на следующую самостоятельную поездку, и простой запрос "забронируйте мне билет в Кон-Дай" приводит вас к приложению Skyscanner с уже заполненными строками.
Но все это легче сказать, чем сделать, и зависит от множества переменных, некоторые из которых могут оказаться вне контроля Apple. Например, веб-страницы, изобилующие всплывающими окнами и навязчивой рекламой, сделают работу Ferret UI практически невозможной. Но есть и положительный момент: разработчики iOS строго придерживаются рекомендаций Apple по дизайну, поэтому вполне вероятно, что в приложениях для iPhone Ferret UI будет работать более эффективно.
Это все равно будет впечатляющей победой. И поскольку речь идет о реализации на устройстве, заложенной на уровне ОС, маловероятно, что Apple будет взимать плату за удобство, в отличие от основных продуктов генеративного ИИ, таких как ChatGPT Plus или Microsoft Copilot Pro. Может ли iOS 18 наконец-то дать нам представление о переосмысленной iOS, усиленной искусственным интеллектом? Чтобы узнать это, нам придется дождаться Всемирной конференции разработчиков Apple 2024 года.
Если вам понравилась эта статья, подпишитесь на меня, чтобы не пропустить еще много полезных статей!
Также вы можете прочитать меня здесь:
- Telegram: https://t.me/gergenshin
- яндекс Дзен: https://dzen.ru/gergen
- официальный сайт: https://www-genshin.ru