Apple выпустила новое исследование, выполненное в сотрудничестве с Университетом Аалто в Финляндии. В рамках проекта была разработана модель искусственного интеллекта ILuvUI — мультимодальная система, способная анализировать интерфейсы мобильных приложений по скриншотам и описаниям на естественном языке. Исследователи утверждают, что это важный шаг к тому, чтобы ИИ мог воспринимать и интерпретировать интерфейсы так же, как это делает человек. Разработка получила название ILuvUI: Instruction-tuned LangUage-Vision modeling of UIs from Machine Conversations. Как объясняют авторы, интерфейсы приложений включают в себя сложные элементы — списки, чекбоксы, текстовые поля — и несут в себе больше информации, чем просто функциональные кнопки. Традиционные языковые модели хорошо справляются с текстовыми инструкциями, но теряют важный контекст, если не видят визуальную составляющую экрана. Сегодня большинство мультимодальных моделей обучаются на обычных изображениях — вроде пейзажей, животных или