Ву — аспирант исследовательской группы Русинкевича, которая работает над применением метода, называемого обучением с подкреплением, к робототехнике. Метод, знакомый дрессировщикам собак во всем мире, предлагает вознаграждение за хорошую работу. В случае с роботами вознаграждение является математическим, как очки в видеоигре. Основные алгоритмы, управляющие поведением роботов, адаптируются и изменяются вместе с наградами, поэтому роботы могут разрабатывать собственные методы решения проблем, основанные на миллионах компьютерных симуляций. «Мы пытаемся сказать роботам: «Послушайте, вы будете получать вознаграждение каждый раз, когда вы успешно выбросите мусор в корзину», и это все, что они знают», «У нас есть алгоритмы, в которых, если они делают это тысячи и тысячи раз в симуляции, в конце концов они узнают мусор, что заставляет их получать вознаграждение».
Первые в мире роботы, убирающие мусор за вознаграждение. Как это работает?
27 января 202227 янв 2022
4
~1 мин