Google представила новый метод извлечения пользовательских намерений, который использует компактные модели, работающие непосредственно на устройствах. Это позволяет анализировать действия пользователей, не отправляя их данные на серверы, тем самым обеспечивая приватность. Исследователи решили задачу, разбив её на два этапа. Разработанное ими решение превзошло по эффективности базовую производительность больших мультимодальных языковых моделей (MLLM), работающих в дата-центрах. Метод анализирует взаимодействие пользователя с интерфейсом мобильного устройства или браузера. Этот процесс остаётся на устройстве. Он работает в два этапа: Авторы отмечают, что этот двухэтапный подход демонстрирует более высокую производительность как по сравнению с компактными моделями, так и с передовыми большими MLLM, независимо от типа набора данных и модели. Он также эффективно справляется с неоднозначными данными, с которыми не всегда могут работать традиционные методы. В основе метода лежит анализ «траек