Найти тему
Feature IN

Человеческий субъектный эксперимент, независимые переменные роботов

Оглавление

Для оценки предложенного формализма ученые провели эксперимент на человеке-субъекте на смоделированной задаче ношения стола.

Было интересно показать, что интеграция BAM в процесс принятия решений по роботам может привести к более эффективным политикам, чем современная команда роботов-людей или тренировочные практики, сохраняя при этом удовлетворенность и доверие людей.

С одной стороны, мы можем "исправить" политику в отношении роботов, чтобы робот всегда двигался к оптимальному - с точки зрения некоторых объективных показателей производительности - целевому показателю, игнорируя адаптивность человека. Это заставит всех пользователей адаптироваться, поскольку это единственный способ выполнить задачу. Однако предполагаем, что это существенно повлияет на удовлетворенность людей и доверие к роботу.

Фото: pixabay.com пользователь: TheDigitalArtist
Фото: pixabay.com пользователь: TheDigitalArtist

С другой стороны, можно эффективно познакомиться с человеческими предпочтениями. Это может привести к тому, что команда людей-роботов будет придерживаться неоптимальной политики, если у человека будет неточная модель возможностей робота. Таким образом, у нас есть два условия контроля:

  • одно - когда участники взаимодействуют с роботом, придерживаясь фиксированной политики, всегда действуя в направлении достижения оптимальной цели;
  • другое - когда робот учится понимать предпочтения человека.

Мы показываем, что предлагаемый формализм позволяет достичь компромисса между ними: Когда человек не может адаптироваться, робот следует человеческой стратегии. В противном случае, робот настаивает на оптимальном способе выполнения задания, что приводит к значительно лучшей политике по сравнению с изучением предпочтений человека.

Независимые переменные

Было три экспериментальных условия, которые называем "Фиксированные", "Взаимная адаптация" и "Перекрестное обучение". Робот придерживается фиксированной политики, всегда действуя в направлении достижения оптимальной цели. В случае использования робота в качестве переносчика стола он продолжает вращать стол по часовой стрелке в направлении цели А, что, как мы полагаем, является оптимальным.

Единственный способ выполнить эту задачу - повернуть таблицу в том же направлении, что и робота, пока он не перейдет в горизонтальную конфигурацию.

Робот начинает с поворота стола к оптимальной цели (цель А). Таким образом, адаптация к стратегии робота соответствует повороту стола в оптимальную конфигурацию. Перекрестная тренировка. Совместное обучение человека и робота с использованием алгоритма перекрестного обучения человека и робота.

Алгоритм состоит из прямой фазы и фазы вращения. На продвинутом этапе робот выполняет начальную политику, которую мы выбираем в качестве политики, ведущей к оптимальной цели. Таким образом, в сценарии с переноской робот вращает таблицу по часовой стрелке в направлении цели А. На этапе вращения ролей человек и робот переключают роли, а человеческие ресурсы используются для обновления функции вознаграждения роботов. После двух этапов политика робота пересчитывается.

Гипотезы

Участники Н1 согласятся с тем, что HERB заслуживает доверия, и будут более удовлетворены работой команды в условиях взаимной адаптации, чем при работе с роботом в фиксированном состоянии.

Ожидали, что пользователи будут больше доверять роботу с изученной политикой MOMDP, по сравнению с роботом, выполняющим фиксированную стратегию, игнорируя готовность пользователя к адаптации. В предыдущей работе руководитель на уровне задач, адаптированный к человеческому партнеру, значительно улучшил восприятие роботов как заслуживающих доверия.

Кроме того, работа с человеколюбивым роботом, адаптировавшим свои движения, включала следующее значительное влияние на удовлетворенность людей.

Фото: pixabay.com пользователь: TheDigitalArtist
Фото: pixabay.com пользователь: TheDigitalArtist

Участники Н2 с большей вероятностью адаптируются к стратегии робота для достижения оптимальной цели в условиях взаимной адаптации, по сравнению с работой робота в режиме кросс-тренинга. Расчетная политика MOMDP позволяет роботу сделать вывод о адаптируемости человека в режиме онлайн и направляет адаптируемых пользователей к более эффективным стратегиям.

Поэтому ученые предположили, что при работе с роботом в режиме взаимной адаптации стратегию сменит больше субъектов, чем при перекрестном обучении с роботом. Отметим, что в фиксированном состоянии все участники в итоге перешли на роботизированную стратегию, так как это был единственный способ решить поставленную задачу.

H3 показатели робота как товарища по команде, как считают участники в состоянии взаимной адаптации, не будут хуже, чем в состоянии перекрестной тренировки. Изученная политика MOMDP позволяет роботу следовать предпочтениям участников, которые менее приспособлены, направляя их к оптимальной цели участников, желающих изменить свою стратегию. Поэтому ученые предположили, что такое поведение приведет к тому, что производительность робота будет восприниматься не хуже, чем в режиме кросс-тренировки.

Спасибо что дочитали до самого конца! Очень надеюсь на вашу поддержку! Спасибо что вы со мной!