Найти в Дзене
Новости нейросетей

Исследователи Apple разрабатывают ИИ, который может "видеть’ и понимать контекст экрана

Исследователи Apple разработали новую систему искусственного интеллекта, которая может понимать неоднозначные ссылки на объекты на экране, а также разговорный и фоновый контекст, обеспечивая более естественное взаимодействие с голосовыми помощниками, говорится в документе, опубликованном в пятницу.

Система, получившая название ReALM (Эталонное разрешение как языковое моделирование), использует большие языковые модели для преобразования сложной задачи эталонного разрешения, включая понимание ссылок на визуальные элементы на экране, в задачу чисто языкового моделирования. Это позволяет ReALM добиться существенного повышения производительности по сравнению с существующими методами.

“Способность понимать контекст, включая ссылки, необходима для разговорного помощника”, - написала команда исследователей Apple. “Предоставление пользователю возможности задавать запросы о том, что он видит на экране, является важным шагом в обеспечении реальной работы голосовых помощников без помощи рук”.

Для решения проблем с ссылками на экран ключевым нововведением ReALM является реконструкция экрана с использованием проанализированных экранных объектов и их местоположения для создания текстового представления, отражающего визуальный макет. Исследователи продемонстрировали, что этот подход в сочетании с точной настройкой языковых моделей специально для эталонного разрешения может превзойти GPT-4 в решении задачи.

Apple незаметно добивается значительных успехов в исследованиях искусственного интеллекта, несмотря на то, что отстает от технологических конкурентов в гонке за доминирование в быстро меняющемся мире искусственного интеллекта.

Наука
7 млн интересуются