Обучение с подкреплением (RL) отлично решает задачи с нуля, но обучить агента понимать обратимость его действий не так-то просто. Например, роботам следует избегать действий, которые могут привести к их поломке. Чтобы оценить обратимость действия, нужны практические знания и понимание физики среды, в которой существует RL-агент. Поэтому исследователи Google AI на конференции NeurIPS 2021 представляем новый способ аппроксимации обратимости действий RL-агентов. Этот подход добавляет отдельный компонент оценки обратимости к самоконтролируемой процедуре обучения с подкреплением на немаркированных данных, собранных агентами. Модель можно обучать онлайн (совместно с агентом RL) или офлайн (из набора данных взаимодействий), чтобы направлять политику RL в сторону обратимого поведения. Так можно значительно повысить производительность агентов RL при выполнении нескольких задач. Компонент обратимости, добавленный к процедуре RL, извлекается из взаимодействий и представляет собой модель, которую
Самоконтролируемое обратимое обучение с подкреплением: новый подход от Google AI
2 апреля 20222 апр 2022
31
1 мин