57 подписчиков

Диалог и мультимодальность

8 мая 20208 мая 2020

3 мин

Поскольку все компоненты нашей архитектуры полагаются на один и тот же формализм RDF для представления своих результатов, различные способы коммуникации представляются однородным образом, как символические утверждения в базе знаний. Это относится как к явным модальностям (словесное общение, дейктические жесты, фокусировка взгляда), так и к неявным модальностям (например, к положению тела человека). Процесс заземления диалога использует их на двух разных уровнях для обеспечения мультимодальной концепции. Во-первых, конкретные шаги процесса заземления явно проверяют наличие и ценность определенных фактов. Например, когда несколько экземпляров соответствуют категории (человек говорит «дай мне бутылку», а робот знает о трех бутылках), модуль может решить отказаться от некоторых кандидатов на основании их видимости для говорящего (неявное использование контекста связи с учетом человеческой позиции). В данном конкретном случае, эвристический выбирается Диалоги на основе квантора предшествую

Во-первых, конкретные шаги процесса заземления явно проверяют наличие и ценность определенных фактов. Например, когда несколько экземпляров соответствуют категории (человек говорит «дай мне бутылку», а робот знает о трех бутылках), модуль может решить отказаться от некоторых кандидатов на основании их видимости для говорящего (неявное использование контекста связи с учетом человеческой позиции). В данном конкретном случае, эвристический выбирается Диалоги на основе квантора предшествующего класса ( «дай мне бутылку»). Первое исследование иллюстрирует детали этого процесса.

В качестве другого примера, когда человек говорит «это», робот проверяет, указывает ли человек в данный момент на объект. В этом случае это заменяется объектом, на котором сфокусировано. В противном случае робот выполняет разрешение анафоры, просматривая историю диалогов, чтобы найти предыдущую концепцию, на которую может ссылаться пользователь.

Обратите внимание, что, хотя система выигрывает от дополнительных методов, они не являются обязательными. Система может работать только с вербальной модальностью за счет более простого взаимодействия. Например, если человек говорит «это» без робота, отслеживающего то, на что он указывает, факт «ЧЕЛОВЕК 1 указывает на ...» , возможно, отсутствует в базе знаний, и робот возвращается к шагу разрешения анафоры.

Второй уровень интеграции мультимодальности неявный. Постоянно вычисляя символические свойства из геометрической модели, система получает более богатые символические описания для вербализации или различения объектов. Например, робот может вычислить, что одна бутылка находится рядом со стаканом, а другая стоит одна. Эти символические описания прозрачно используются повторно в контексте диалога, чтобы генерировать недвусмысленные ссылки для различения похожих объектов: «Вы имеете в виду бутылку, которая находится рядом со стаканом?». Физический контекст взаимодействия используется как неявная модальность связи по Диалогам . Ros содержит подробный отчет о нашем подходе к интерактивному разъяснению и различению понятий, а также соответствующие алгоритмы.

Планирование задач с учетом потребностей человека

Когда это необходимо, контроллеры исполнения полагаются на символическое планирование задач для преобразования долгосрочных желаний в набор частично упорядоченных элементарных действий. Это роль планировщика HATP ( Human Aware Task Planner ) .

Структура планирования HATP расширяет представление и семантику планирования традиционной иерархической целевой сети (HTN), делая их более подходящими для создания планов, в которых люди и роботы действуют сообща для достижения общей цели. HATP используется роботом для создания общих планов человек-робот которые затем используются, чтобы предвидеть действия человека, предложить направление действий людям или, возможно, попросить помощи у человека если нужно.

Область планирования HATP определяет набор методов, описывающих, как постепенно разбивать задачу и распределять подзадачи и действия роботу и / или человеку в зависимости от контекста. Это представляет собой процедурные знания робота, а также его знания о действиях, которых способен достичь партнер. Он хранится вне центральной базы знаний с использованием определенного формализма (см. Соответствующее обсуждение в конце этого раздела).Далее мы обсудим, как HATP постепенно создает и синхронизирует потоки действий для каждого или агентов (людей и роботов), вовлеченных в задачу, и как она продвигает планы, которые удовлетворяют потребности и предпочтения людей, а также комфорт и удобочитаемость .

Продолжение следует...