10,2 тыс подписчиков

Самоконтролируемое обратимое обучение с подкреплением: новый подход от Google AI

2 апреля 20222 апр 2022

1 мин

Обучение с подкреплением (RL) отлично решает задачи с нуля, но обучить агента понимать обратимость его действий не так-то просто. Например, роботам следует избегать действий, которые могут привести к их поломке. Чтобы оценить обратимость действия, нужны практические знания и понимание физики среды, в которой существует RL-агент. Поэтому исследователи Google AI на конференции NeurIPS 2021 представляем новый способ аппроксимации обратимости действий RL-агентов. Этот подход добавляет отдельный компонент оценки обратимости к самоконтролируемой процедуре обучения с подкреплением на немаркированных данных, собранных агентами. Модель можно обучать онлайн (совместно с агентом RL) или офлайн (из набора данных взаимодействий), чтобы направлять политику RL в сторону обратимого поведения. Так можно значительно повысить производительность агентов RL при выполнении нескольких задач.

Компонент обратимости, добавленный к процедуре RL, извлекается из взаимодействий и представляет собой модель, которую можно обучать отдельно от самого агента. Обучение модели проходит самостоятельно и не требует разметки данных с указанием обратимости действий: модель сама узнает о том, какие типы действий имеют тенденцию быть обратимыми, из контекста обучающих данных. При этом учитывается вероятность возникновения событий и приоритет как прокси-мера истинной обратимости, которую можно узнать из набора данных взаимодействий, даже без вознаграждения RL-агента.

Этот метод позволяет агентам RL прогнозировать обратимость действия путем обучения моделированию временного порядка случайно выбранных событий траектории, что приводит к лучшему исследованию и контролю. Метод является самоконтролируемым, т.е. не требует предварительных знаний об обратимости действий, что подходит для различных сред.

https://ai.googleblog.com/2021/11/self-supervised-reversibility-aware.html