Анализ и изучение социально-нормативных моделей поведения
До сих пор исследователями совершались попытки для анализа социального поведения людей и того, как социальные правила могут быть использованы для выполнения социально совместимого поведения роботов, особенно во время планирования пути. Но как можно получить эти социальные правила?
В принципе, существует два различных подхода:
- либо правила предоставляются вручную специалистами-людьми и преобразуются в понятные для машины представления,
- либо они автоматически усваиваются из наблюдений с датчиков.
В SPENCER используются оба подхода:
- Высокоуровневые, сложные правила устанавливаются на основе эмпирических исследований пользователей,
- Низкоуровневые правила автоматически усваиваются из демонстраций. Здесь мы приводим два примера.
Исследования пользователей и контекстный анализ
Окружающая среда аэропорта естественным образом населена людьми из многих различных культур. Таким образом, здесь может потребоваться множество различных социальных правил. Одним из примеров, который исследуется, является проксемика, т.е. расстояние, которое робот должен держать от группы при взаимодействии. Рассматривается это в качестве примера сценария приближения робота к небольшой группе людей.
Результаты онлайнового опроса, который был распространен среди жителей Китая, США и Аргентины, показывают, что участники предпочитают робот, который находится за пределами их личной зоны. Однако китайские участники согласились с более близкими подходами, чем американцы и аргентинцы.
Это предполагает применение социальных правил и для SPENCER с учетом культурных особенностей.
Кроме того, был проведен контекстуальный анализ в аэропорту Схипхол, чтобы проанализировать поведение людей и определить наблюдаемые социальные правила, о которых должен знать робот SPENCER. На основе видеоданных, собранных в течение двух последовательных дней, было установлено несколько типичных, весьма актуальных моделей поведения человека.
Например, одним из таких поведений является то, что группы людей, как правило, ходят парами или триадами друг за другом. Другой — это типичное уклонение от областей, близких к информационным мониторам. Эти выводы имеют прямое отношение как к восприятию, так и к модулю планирования системы, поскольку они потенциально ведут к более надежному групповому отслеживанию и более социально приемлемому перемещению робота.
Обучение поведению через обратное усиление
Обратное усиление обучения направлено на восстановление объективной функции, кодирующей заданное поведение из входного сигнала вознаграждения. Это более надежный инструмент, чем поиск политики, поскольку вознаграждения являются более обобщающими и краткими. Исследователи используют Bayesian IRL для изучения распределения наград и выбора наилучшего вознаграждения в качестве оценки.
Для проведения экспериментов используется специально разработанный пешеходный симулятор, основанный на моделях из компьютерных социальных наук, для проведения поведенческих тестов с произвольно большой толпой, поскольку тестирование на реальном роботе с большой толпой слишком дорогостоящее. Изученная карта затрат с использованием IRL затем используется специалистом по планированию движения на базе RRT, чтобы найти нужный путь для настройки.
Кроме того, ученые стремятся к усвоению соответствующих социальных норм при обращении к человеку.
Эти нормы включают:
- комфортную скорость,
- подходящее направление,
- общественные отношения внутри группы, если человек находится в группе.
В настоящее время, однако, фокусируется внимание на общении только с одним человеком. Вновь используется IRL для изучения политики на примере ряда демонстраций, проведенных экспертом. Состояния задаются расстоянием и ориентацией в кадре, ориентированном на человека, а действия - действиями планировщика движения.
Системная интеграция и заключение
Все представленные компоненты системы разрабатываются независимо и одновременно. Однако для достижения устойчивого прогресса в рамках всей системы все ее компоненты также интегрированы и согласованы друг с другом на регулярных совещаниях, проводимых каждые шесть месяцев. В результате, платформа в ее нынешнем состоянии уже сочетает в себе отображение карты, лазерный трекер людей и групп, а также проектировщик задач и движения.
Эксперименты с полной системой показали, что робот способен:
- приблизиться и вступить в контакт с человеком,
- получить положение ворот,
- направить человека или группу к цели, отслеживая при этом другие лица.
Если обнаруживается сбой в сотрудничестве, когда человек больше не следует за ним, он останавливается и ждет повторного включения. Воодушевленные этими результатами исследователи в ближайшем будущем планируют первое развертывание платформы в аэропорту Схипхол.