37 подписчиков

Новый метод извлечения пользовательских намерений от Google

28 января28 янв

3 мин

Google представила новый метод извлечения пользовательских намерений, который использует компактные модели, работающие непосредственно на устройствах. Это позволяет анализировать действия пользователей, не отправляя их данные на серверы, тем самым обеспечивая приватность. Исследователи решили задачу, разбив её на два этапа. Разработанное ими решение превзошло по эффективности базовую производительность больших мультимодальных языковых моделей (MLLM), работающих в дата-центрах. Метод анализирует взаимодействие пользователя с интерфейсом мобильного устройства или браузера. Этот процесс остаётся на устройстве. Он работает в два этапа: Авторы отмечают, что этот двухэтапный подход демонстрирует более высокую производительность как по сравнению с компактными моделями, так и с передовыми большими MLLM, независимо от типа набора данных и модели. Он также эффективно справляется с неоднозначными данными, с которыми не всегда могут работать традиционные методы. В основе метода лежит анализ «траек

Оглавление

Как работает извлечение намерений
Ключевые принципы и сложности
Детали двухэтапного подхода

Исследователи решили задачу, разбив её на два этапа. Разработанное ими решение превзошло по эффективности базовую производительность больших мультимодальных языковых моделей (MLLM), работающих в дата-центрах.

Как работает извлечение намерений

Метод анализирует взаимодействие пользователя с интерфейсом мобильного устройства или браузера. Этот процесс остаётся на устройстве. Он работает в два этапа:

Модель на устройстве создаёт краткое описание каждого действия пользователя.
Последовательность этих описаний передаётся второй модели, которая формирует общее понимание цели пользователя.

Авторы отмечают, что этот двухэтапный подход демонстрирует более высокую производительность как по сравнению с компактными моделями, так и с передовыми большими MLLM, независимо от типа набора данных и модели. Он также эффективно справляется с неоднозначными данными, с которыми не всегда могут работать традиционные методы.

Ключевые принципы и сложности

В основе метода лежит анализ «траектории» — последовательности шагов пользователя в приложении. Каждый шаг состоит из двух компонентов:

Наблюдение (Observation): визуальное состояние экрана (скриншот).
Действие (Action): конкретное действие пользователя на этом экране (клик, ввод текста).

Качественно извлечённое намерение должно быть:

Достоверным — описывать только то, что реально произошло.
Полным — содержать всю информацию, необходимую для воспроизведения действий.
Релевантным — не включать посторонних деталей.

Оценка таких намерений — сложная задача. Намерения субъективны и часто неоднозначны: по действиям можно понять что сделал пользователь, но не всегда почему. Исследования показывают, что даже у людей согласие в определении намерений по одним и тем же действиям достигает примерно 80% для веб-траекторий и 76% для мобильных.

Детали двухэтапного подхода

Первый этап: Описание экрана и действия
Для каждого шага модель создаёт краткое описание, состоящее из двух частей:
- Что изображено на экране.
- Какое действие совершил пользователь.
Любые предположения модели о конечной цели пользователя на этом этапе (помеченные как «спекулятивное намерение») целенаправленно удаляются. Исследователи обнаружили, что такое «высказывание и удаление» догадок в итоге повышает качество конечного результата.
Второй этап: Формирование общего намерения
Для второго этапа модель обучается на данных, состоящих из:
- Входных данных: всех описаний шагов (с первого этапа) для одной траектории.
- Целевых данных: эталонного описания общего намерения для этой траектории.Изначально модель склонялась к «галлюцинациям» — дополнению входных данных, чтобы они полнее соответствовали эталону. Проблему решили, предварительно «очистив» эталонные описания, удалив из них детали, не отражённые во входных данных. Это научило модель делать выводы, опираясь только на имеющуюся информацию.

Этические вопросы, ограничения и перспективы

Исследователи подчёркивают важность этических рамок, поскольку автономный агент, действующий на основе извлечённых намерений, должен работать строго в интересах пользователя.

Работа имеет ограничения: тестирование проводилось только в средах Android и веба на данных пользователей из США, что может ограничивать применимость результатов для других платформ, языков и регионов.

Прямого указания на внедрение этой технологии в текущие продукты Google нет. Однако исследование чётко указывает на вектор развития: компактные модели на устройствах смогут понимать контекст действий пользователя для:

Проактивной помощи — для персонализации и повышения эффективности задач.
Персонализированной памяти — чтобы устройство могло «помнить» прошлые активности в виде целей.

По мере роста мощности мобильных устройств и улучшения моделей, понимание намерений прямо на устройстве может стать основой для многих вспомогательных функций.