6213 подписчиков
В предыдущих материалах из этой серии мы рассказали о том, что такое обучение с подкреплением, поговорили о том, почему это важно, разобрались с математическим аппаратом, используемым для создания RL-агентов.
Сегодня мы выведем алгоритм Q-обучения и посмотрим, как его применение привело к одному из первых важных открытий, ставших основой сферы глубокого обучения с подкреплением.
Около минуты
23 июня 2022