Найти в Дзене
6213 подписчиков

В предыдущих материалах из этой серии мы рассказали о том, что такое обучение с подкреплением, поговорили о том, почему это важно, разобрались с математическим аппаратом, используемым для создания RL-агентов.


Сегодня мы выведем алгоритм Q-обучения и посмотрим, как его применение привело к одному из первых важных открытий, ставших основой сферы глубокого обучения с подкреплением.
В предыдущих материалах из этой серии мы рассказали о том, что такое обучение с подкреплением, поговорили о том, почему это важно, разобрались с математическим аппаратом, используемым для создания...
Около минуты