Введение в статью
Проблема изучения картирования между состоянием мира и действиями лежит в основе многих приложений робототехники. Это отображение, также называемое политикой, позволяет роботу выбирать действие, основываясь на его текущем состоянии мира. Разработка роботов на местах зачастую сопряжена с большими трудностями, в результате чего при разработке применялись машинные методы обучения. В данном исследовании ученые рассматривают особый подход к обучению роботов, "Учиться на примере демонстрации" (LfD).
В рамках инициативы политика усваивается из примеров или демонстраций, предоставленных учителем. Ученые определяют примеры как последовательности пар состояний, которые записываются во время демонстрации учителем желаемого поведения робота. Алгоритмы LfD используют этот набор примеров для получения политики, воспроизводящей продемонстрированное поведение.
Такой подход к получению политики отличается от других методов, в которых политика извлекается из опыта, например, создание политики, основанной на данных, полученных в ходе разведки, как в случае с обучением в целях усиления. Мы отмечаем, что политика производных в рамках LfD, обязательно определяется только в тех штатах, с которыми встречаются, и за те действия, которые были предприняты во время казни.
В этой статье мы представляем обзор недавней работы в сообществе LfD, сфокусированный на роботизированных приложениях. Мы разделяем проблему обучения в рамках инициативы LfD на два фундаментальных этапа: сбор примеров и выработка политики на основе этих примеров.
Основываясь на выявленных определяющих особенностях этих методов, ученые проводят комплексное исследование и категоризацию существующих подходов к процессу НРД. Несмотря на то, что система LfD была применена к различным проблемам робототехники, насколько всем известно, не существует установленной структуры для конкретного размещения работ в более широком сообществе.
В целом, подходы должным образом контрастируют с аналогичными или фундаментальными исследованиями, но их взаимосвязь с остальными исследованиями поля в основном остается без внимания. Установление этих отношений еще более усложняется наличием реальных роботизированных платформ, для которых физические детали между реализациями могут сильно отличаться и при этом использовать принципиально идентичные методы обучения, или наоборот. Таким образом, категориальная структура помогает проводить сравнительную оценку различных приложений, а также выявлять открытые области для будущих исследований. Внося свой вклад в категоризацию существующих подходов, ученые стремятся заложить основы для того, чтобы сделать такую структуру.
В оставшейся части этой статьи ученые мотивируют применение метода LfD к робототехнике и представляют официальное определение проблемы LfD. Так же были представлены основные проектные решения для системы LfD. Методы сбора демонстрационных примеров находятся в центре внимания моих следующих статьей, в которых обсуждаются различные подходы к демонстрации учителей и записи данных. Так же будет рассмотрены основные методы вывода политики в рамках Инициативы развития тысячелетия (LfD), а затем будут приводится методы повышения эффективности работы роботов, выходящие за рамки возможностей учителей.
Поддержка демонстрационного обучения
Присутствие роботов в обществе становится все более распространенным. Идет ли речь о исследовательском роботе в космосе, футбольном роботе или роботе для отдыха в домашних условиях, для успешной автономной работы робота требуются надежные алгоритмы управления. Не роботов-экспертов могут все чаще наделять возможностями взаимодействия с роботами, и разумно ожидать, что у них есть идеи о том, что должен делать робот, и, следовательно, о том, какого рода поведение должны производить эти алгоритмы управления.
Естественным и практичным дополнением к полученным знаниям является разработка желаемого алгоритма управления. Однако в настоящее время разработка политики представляет собой сложный процесс, в котором участвуют только эксперты в этой области.
Традиционные подходы к динамике доменной модели управления роботами и выработка математически обоснованных политик. Хотя теоретически эти подходы хорошо обоснованы, они в значительной степени зависят от точности мировой модели. Эта модель не только требует значительного опыта для разработки, но и приближения, такие как линеаризация, часто вводятся для вычислительной трассируемости, тем самым снижая производительность.
Другие подходы, такие как "Укрепление обучения", направляют процесс обучения в области политики путем предоставления отзывов о желательности посещения конкретных государств. Однако определение функции по предоставлению вознаграждения, как известно, сопряжено с определенными трудностями и требует значительный опыт, которым необходимо заняться. Кроме того, создание такой политики требует сбора информации во время посещения штатов для получения вознаграждения, что является нетривиальным для робота-ученика, выполняющего реальные действия в реальном мире.
Учитывая эти проблемы, программа LfD имеет много привлекательных моментов как для учащегося, так и для преподавателя. Формулы LfD обычно не требуют экспертных знаний динамики области, что устраняет хрупкость характеристик в результате упрощения модели. Отсутствие этого требования к знаниям в экспертной области также открывает возможности для разработки политики для не роботов-экспертов, удовлетворяя потребности, которые возрастают по мере того, как роботы становятся все более распространенным явлением.
Кроме того, демонстрация обладает привлекательной особенностью - быть интуитивным средством общения с людьми, которые уже используют демонстрацию для обучения других людей. Демонстрация также включает в себя практическую возможность сфокусировать набор данных на тех областях пространства состояний, которые фактически встречаются во время выполнения задачи.
Продолжение выйдет вскоре, спасибо что дочитали, надеюсь это было полезно для Вас, подписывайтесь на канал и жмите лайки!