Привет, Дзен! Обучение с подкреплением является одним из самых перспективных направлений машинного обучения. С его помощью искусственный интеллект сегодня способен решать широчайший спектр задач: от робототехники и видеоигр до моделирования поведения покупателей и здравоохранения. В этой вводной статье мы изучим главную идею reinforcement learning и с нуля построим собственного самообучающегося бота. Введение Основное отличие обучения с подкреплением (reinforcement learning) от классического машинного...
Обучение с подкреплением отлично подходит для задач с четко определенной функцией вознаграждения, что подтверждается успешным опытом AlphaZero для Go, OpenAI Five для Dota и AlphaStar для StarCraft. Но на практике четко определить функцию вознаграждения не всегда возможно. Например, в простом кейсе уборки комнаты найденная под кроватью старая визитка или использованный билет на концерт могут представлять ценность и не должны быть выкинуты как мусор. Впрочем, даже если задать четкие критерии оценки...