6213 подписчиков

В предыдущих материалах из этой серии мы рассказали о том, что такое обучение с подкреплением, поговорили о том, почему это важно, разобрались с математическим аппаратом, используемым для создания RL-агентов.

Сегодня мы выведем алгоритм Q-обучения и посмотрим, как его применение привело к одному из первых важных открытий, ставших основой сферы глубокого обучения с подкреплением.

Около минуты

23 июня 2022