Разработчики продемонстрировали возможное практическое применение Go-Explore для робототехники в задаче управления манипулятором робота.N + 1
Действия агента приводят к отклику среды, которая реагирует на принятые решения агента изменением значения величины, играющей роль награды.N + 1
Системы, основанные на обучении с подкреплением, могут научиться не только играть в игры, но и потенциально выполнять любые задачи.N + 1
Далее, если необходимо, после фазы исследования Go-Explore может выполнить робастификацию найденных решений, чтобы повысить устойчивость к возможным шумам для найденных в фазе исследования траекторий.N + 1