Найти в Дзене

Мультимодальное общение и дистанционный диалог

Оглавление

Контролирующие действия человека необходимы контролерам исполнения, чтобы отслеживать вовлечение человека и ход его действий. Также необходимо беспрепятственно синхронизировать свои действия с действиями человека. Полное человеческое действие и распознавание деятельности - это задача, которая требует знания и аргументирования как фактов высокого уровня, таких как цели, намерения и планы, так и данных восходящего движения человека и объекта. Spark реализует набор простых временных и геометрических эвристик на траекториях рук человека и возможных местах размещения объектов для распознавания простых элементарных действий. Эти примитивные действия оцениваются путем мониторинга ситуаций, таких как «пустая рука находится близко к объекту на столе» (предшественник кирки) или «рука, держащая объект над контейнером» (предшественник пута ). Spark распознает множество таких примитивов. В сочетании с другими геометрическими вычислениями и прогнозным планом действий человека, контроллер выполнения может отслеживать выполнение предварительных и последующих условий предсказанных действий человека. Робот полагается на них, чтобы контролировать участие человека и общий прогресс общего плана человек-робот.


Ограничения

В своем нынешнем виде наш модуль оценки ситуации делает два предположения: объекты известны заранее (следовательно, мы можем положиться на правильную 3D CAD-модель для пространственных рассуждений) и преимущества робота почти идеального восприятия, которые стали возможными благодаря использованию фидуциальные маркеры. Каждый объект получает уникальный тег, который обеспечивает точную локализацию в 3D и предотвращает неоднозначности распознавания, которые иначе были бы отражены в базе знаний. Хотя алгоритмы Spark не касаются природы входных источников и одинаково хорошо работают с полным стеком распознавания объектов, мы до сих пор не исследовали эту область исследований.
Кроме того, временные рассуждения (например, необходимые для точного распознавания действий) обычно не рассматриваются в текущем состоянии нашей системы. Временные рассуждения используются только локально и не позволяют отслеживать длинные последовательности или глобальные события.


Основа естественного языка

Естественный язык - это базовый способ взаимодействия, который мы используем в нашей системе как в качестве входных данных (обработка человеческой речи), так и в качестве выходных данных (вербализация намерений робота, а также общих планов человек-робот). Обработка естественного языка облегчается, поскольку наша архитектура манипулирует семантикой, близкой к человеческому уровню. В этом разделе представлены основные функции нашего речевого процессора Dialogs , которые включают семантическое и мультимодальное заземление, а также интерактивное устранение неоднозначности.

Мы получаем естественный речевой ввод от участников-участников через пользовательский интерфейс на базе Android. Интерфейс основан на API распознавания речи Google для преобразования речи в текст (ASR) и передает текстовую расшифровку роботу. Текст разбирается в грамматическую структуру ( часть тегов речи ) с помощью пользовательского эвристического анализатора. Полученные атомы затем разрешаются с помощью базы знаний для обоснования таких понятий, как объекты (т. е. когда пользователь говорит «поднять банку», он решает, к какому экземпляру Can относится пользователь) и действиям. На рис. 7 приведен пример обработки простой не однозначной команды. Первое исследование проходит через более сложные примеры. Эвристики, такие как наличие знака вопроса или использование императивного настроения, используются для классификации предложений на вопросы, желания или утверждения. Диалоги обрабатывают их соответствующим образом, отвечая на вопросы или обновляя базу знаний.Система поддерживает количественную оценку, тематические роли (предикаты конкретных действий, которые определяют действия), интерактивное устранение неоднозначности (робот задает вопросы, когда ему нужно больше информации ) и анафора разрешение ( «дать его мне») , основанный на истории диалога и рабочей памяти. Он также поддерживает расширение знаний путем изучения новых семантических структур . Например, предложение типа «узнать, что кошки - животные» преобразуется в « Cat subClassOf Animal» и добавляется в базу знаний после проверки возможных противоречий с существующими знаниями. Диалоги Наконец, интерпретируют общие временные и пространственные наречия (например,выше или завтра) и переводит простые выражения внутреннего состояния в переживания (например, «я устал» преобразуется в « ЧЕЛОВЕЧЕСКОЕ 1 переживание СОСТОЯНИЕ 1, СОСТОЯНИЕ 1 имеет свойство усталость» ).

https://proftorg.1prof.by/kcfinder/upload/images/debaty-0220.jpg
https://proftorg.1prof.by/kcfinder/upload/images/debaty-0220.jpg

Продолжение следует...