Обучение с подкреплением (RL) – подход, который находится между Контролируемым обучением (Supervised Learning) и Обучением без учителя (Unsupervised Learning). Оно не контролируется строго, поскольку не полагается только на набор помеченных данных обучения, но и не является обучением без учителя, потому что есть максимизируемое вознаграждение. Модели (Model) предстоит найти «правильные» действия в различных ситуациях для достижения своей цели.
Обучение с подкреплением – это наука о принятии решений. Здесь нет супервизора – живого человека, когда-то разметившего Датасет (Dataset), и модель использует только сигнал вознаграждения, чтобы определить, хорошо справляется или нет. Время является ключевым компонентом: процесс является последовательным с отложенной обратной связью. Каждое действие модели влияет на следующие данные, которые она получает.
Проблема RL
До сих пор мы говорили, что агент должен найти «правильное» действие, которое зависит от награды. Вознаграждение Rₜ представляет собой скалярный сигнал обратной связи, который указывает, насколько хорошо Алгоритм (Algorithm) работает на шаге времени t.
В обучении с подкреплением нам нужно определить нашу проблему так, чтобы применить ее для удовлетворения нашей гипотезы вознаграждения. Примером может служить игра в шахматы, где алгоритм получает вознаграждение за победу в игре и наказание за проигрыш.
Гипотеза вознаграждения: все цели можно описать как максимизацию ожидаемого совокупного вознаграждения. Поскольку наш процесс включает в себя последовательные задачи по принятию решений, наши действия на раннем этапе могут иметь долгосрочные последствия для нашей общей цели. Иногда может быть лучше пожертвовать немедленным вознаграждением (вознаграждением на временном шаге Rₜ), чтобы получить более долгосрочное. Выражаясь на языке шахмат, мы можем пожертвовать пешкой сейчас для взятия ладьи на более позднем этапе.
При обучении с подкреплением агент принимает решения о том, какие действия предпринять на каждом временном шаге Aₜ. Агент принимает эти решения на основе получаемого скалярного вознаграждения Rₜ и наблюдаемой среды Oₜ.
Фото: @heyeje
Автор оригинальной статьи: Ryan Wong
Понравилась статья? Поддержите нас, поделившись статьей в социальных сетях и подписавшись на канал. И попробуйте курс «Введение в Машинное обучение» на Udemy.