Найти тему
Загадки интеллекта

Обучение навыкам управления беспилотными средствами. Что нужно делать?

Оглавление

Беспилотные наземные транспортные средства (БНТС) получают значительное внимание в связи с их потенциальной полезностью в различных областях, таких как автомобилестроение, транспортные системы и интеллектуальное производство. Однако достижение автономного контроля над БНТС в сложных условиях остается серьезной проблемой. В частности, навыки самообучения необходимы для оптимизации производительности автономных систем вождения.

В этой статье мы рассмотрим некоторые недавние работы в области исследования под названием "Усиление обучения" для автономного управления БНТС. Эти типы методологий самообучения основаны на "критическом" механизме обучения человеческого мозга, который может повысить эффективность действий, получая отсроченные оценочные отзывы от взаимодействия с окружающей средой.

https://pixabay.com/ru/photos/американская-анализ-мозговой-штурм-3748708/
https://pixabay.com/ru/photos/американская-анализ-мозговой-штурм-3748708/

Платформа БНТС, используемая для этого исследования, выиграла в 2014 году конкурс беспилотных наземных транспортных средств в Китае. Для платформы БНТС были разработаны передовые технологии слияния датчиков и информации, включая визуальное определение яркости, стереозрение для обнаружения препятствий и дальнего обнаружения полос движения. Эта работа включала анализ связей между алгоритмами обучения и структурой активности дофаминовых нейронов в мозгу, а также разработку двух алгоритмов самообучения для управления движением БНТС.

Эксперименты в управлении БНТС

Ученые смоделировали проблему управления обучением как процесс принятия решений, и целью обучения является поиск оптимальной политики управления обучением, которая может минимизировать долгосрочные кумулятивные выгоды.

Также ученые разработали вознаграждения в соответствии с показателями эффективности анализируемых проблем управления обучением, таких как отслеживание ошибок. Оптимальной политикой является детерминированное картирование или функция от исходных состояний к действиям по контролю.

На практике, в связи с большим пространством действий государства, достигается практически оптимальная или неоптимальная политика. В исследовании ученых изучается почти оптимальная политика для продольного управления БНТС.

Почти оптимальная политика была получена в автономном режиме с помощью алгоритма KLSPI на примерах, собранных из системы управления. Кроме того, они также разработали онлайн-контроллер обучения, разработанный на основе двойного программирования, для реализации бокового самообучающегося управления.

Были проведены ряд полевых экспериментов для проверки работоспособности самообучения и возможностей самооптимизации контроллеров обучения. Экспериментальные результаты показывают, что для БНТС критический контроль обучения не только самостоятельно контролирует его, но и совершенствует свои навыки вождения с помощью механизмов самообучения.

https://pixabay.com/ru/photos/беспилотный-самолет-винт-3874000/
https://pixabay.com/ru/photos/беспилотный-самолет-винт-3874000/

Дополнительное обучение в области робототехники

Являясь классом колесных мобильных роботов, БНТС широко изучаются на предмет их потенциала для улучшения интеллектуальных транспортных систем, безопасности автомобилей и освоения космоса. Однако, несмотря на прогресс в областях, связанных с их развитием, применение БНТС в реальных экологических ситуациях не было реализовано в полной мере.

С точки зрения управления движением, конструкция контроллеров БНТС должна учитывать неопределенности в динамике транспортного средства, различные дорожные условия и ограничения в кинематике, такие как минимальный радиус поворота транспортного средства.

Для преодоления этих трудностей были изучены различные усовершенствованные подходы к контролю с анализом конвергенции и стабильности среди наиболее типичных методов динамического контроля. Тем не менее, даже при использовании этих сложных методов, для контроля БНТС остаются нерешенными сложные проблемы. Например, проектирование оптимальных контроллеров движения для БНТС остается серьезной проблемой.

Следовательно, крайне важно развивать БНТС, способные к самообучению, чтобы водительские навыки автономной системы управления постоянно совершенствовались во время их взаимодействия с неопределенными средами.

Являясь одним из основных классов машинных методов обучения, усиленное обучение изучалось в области робототехники как в имитируемых, так и в реальных сценариях. Дополнительное обучение отличается от методов контролируемого обучения и математического программирования и является эффективным способом решения задач последовательного решения.

https://pixabay.com/ru/photos/беспилотный-беспилотный-полет-980473/
https://pixabay.com/ru/photos/беспилотный-беспилотный-полет-980473/

Таким образом, по сравнению с динамическим программированием, дополнительное обучение лучше подходит для решения задач последовательной оптимизации и управления с присущими им неопределенностями. Однако одной из главных проблем дополнительного обучения является "проклятье размерности", означающее, что затраты на вычисления и хранение возрастают с увеличением количества измерений состояния.

Для решения этой проблемы в последние годы все больше внимания уделяется приближенным методам дополнительного обучения, также называемым "приблизительным динамическим программированием" или "адаптивным динамическим программированием".