Q-learning - это алгоритм обучения с подкреплением, который используется для обучения агентов принимать решения в сложных средах. Q-learning основан на идее, что агент может учиться из опыта, получая вознаграждения за хорошие решения и наказания за плохие. Q-learning работает путем создания таблицы значений, называемой Q-таблицей. Каждая ячейка в Q-таблице представляет собой комбинацию состояния и действия. Значение ячейки представляет собой ожидаемое вознаграждение, которое агент получит, если выберет это действие в этом состоянии. На каждом шаге агент выбирает действие, основываясь на значениях в Q-таблице. После того, как агент принял действие, он получает вознаграждение и переходит в новое состояние. Затем агент обновляет значения в Q-таблице, используя следующую формулу: Q(s, a) = Q(s, a) + α(r + γmaxQ(s', a') - Q(s, a)) где: Коэффициент обучения α определяет, насколько сильно агент будет доверять новому опыту. Коэффициент дисконтирования γ определяет, насколько сильно агент предп