6 подписчиков

14. Обучение с подкреплением (Reinforcement Learning): учим агента принимать решения 🕹️🤖

10 марта 202510 мар 2025

4 мин

В предыдущих постах мы рассмотрели генеративные модели и перенос стиля. Сегодня мы познакомимся с обучением с подкреплением (Reinforcement Learning, RL), где мы будем обучать агента принимать решения в определенной среде, максимизируя награду. 1. Что такое обучение с подкреплением? RL – это область машинного обучения, в которой агент учится принимать решения в среде, чтобы максимизировать кумулятивную награду. В отличие от обучения с учителем, где у нас есть размеченные данные, в RL агент получает обратную связь в виде награды или штрафа за свои действия. 2. Основные компоненты RL: 3. Как это работает? Этот процесс повторяется снова и снова, и агент постепенно учится принимать решения, которые максимизируют кумулятивную награду. 4. Q-Learning: Q-Learning – это популярный алгоритм RL, который использует Q-функцию для оценки качества каждого действия в каждом состоянии. Q-функция возвращает ожидаемую кумулятивную награду, которую получит агент, если он выполнит определенное действие в оп

1. Что такое обучение с подкреплением?

RL – это область машинного обучения, в которой агент учится принимать решения в среде, чтобы максимизировать кумулятивную награду. В отличие от обучения с учителем, где у нас есть размеченные данные, в RL агент получает обратную связь в виде награды или штрафа за свои действия.

2. Основные компоненты RL:

Агент (Agent): Объект, который принимает решения в среде.
Среда (Environment): Окружение, в котором действует агент.
Состояние (State): Текущее состояние среды, которое наблюдает агент.
Действие (Action): Действие, которое может выполнить агент в определенном состоянии.
Награда (Reward): Обратная связь, которую агент получает после выполнения действия. Награда может быть положительной (поощрение) или отрицательной (штраф).
Политика (Policy): Функция, которая определяет, какое действие должен выполнить агент в каждом состоянии.

3. Как это работает?

Агент наблюдает за состоянием среды.
На основе политики агент выбирает действие.
Агент выполняет действие в среде.
Среда переходит в новое состояние и выдает награду агенту.
Агент использует награду для обновления своей политики.

Этот процесс повторяется снова и снова, и агент постепенно учится принимать решения, которые максимизируют кумулятивную награду.

4. Q-Learning:

Q-Learning – это популярный алгоритм RL, который использует Q-функцию для оценки качества каждого действия в каждом состоянии. Q-функция возвращает ожидаемую кумулятивную награду, которую получит агент, если он выполнит определенное действие в определенном состоянии и будет следовать оптимальной политике в дальнейшем.

5. Пример: Q-Learning в FrozenLake:

Мы будем использовать Q-Learning для обучения агента играть в игру FrozenLake, которая доступна в библиотеке Gym.

__________________________________________________________________________________________

import gym
import numpy as np
import random

# 1. Создание среды

env = gym.make('FrozenLake-v1', is_slippery=False)

# 2. Определение Q-таблицы

q_table = np.zeros((env.observation_space.n, env.action_space.n))

# 3. Параметры обучения

alpha = 0.8 # Скорость обучения (Learning rate)

gamma = 0.95 # Коэффициент дисконтирования (Discount factor)

epsilon = 0.1 # Вероятность случайного действия (Epsilon)

num_episodes = 1000
# 4. Обучение агента

for i in range(num_episodes):
state = env.reset()[0] #исправлено
done = False while not done:
# Выбираем действие (epsilon-greedy policy)

if random.uniform(0, 1) < epsilon:
action = env.action_space.sample() # Случайное действие

else:
action = np.argmax(q_table[state]) # Лучшее действие согласно Q-таблице
# Выполняем действие и получаем информацию о следующем состоянии и награде

next_state, reward, done, _, _ = env.step(action) #исправлено
# Обновляем Q-таблицу

q_table[state, action] = q_table[state, action] + alpha * (reward + gamma * np.max(q_table[next_state]) - q_table[state, action])

# Переходим в следующее состояние

state = next_state

# 5. Оценка агента

total_reward = 0

num_episodes_eval = 100

for i in range(num_episodes_eval):
state = env.reset()[0] #исправлено

done = False

while not done:
action = np.argmax(q_table[state])
next_state, reward, done, _, _ = env.step(action) #исправлено

total_reward += reward
state = next_state

print("Средняя награда:", total_reward / num_episodes_eval)

___________________________________________________________________________________python

Разберем код:

gym.make('FrozenLake-v1', is_slippery=False) – создает среду FrozenLake. is_slippery=False отключает скольжение, чтобы сделать обучение более простым.
q_table = np.zeros((env.observation_space.n, env.action_space.n)) – создает Q-таблицу, которая содержит оценки для каждого действия в каждом состоянии.
alpha – скорость обучения, определяющая, насколько быстро Q-таблица обновляется.
gamma – коэффициент дисконтирования, определяющий, насколько важны будущие награды.
epsilon – вероятность случайного действия, позволяющая агенту исследовать среду и находить новые решения.
Цикл for i in range(num_episodes) обучает агента в течение num_episodes эпизодов.
Внутри цикла агент выбирает действие (с вероятностью epsilon выбирается случайное действие, иначе выбирается лучшее действие согласно Q-таблице), выполняет его, получает награду и обновляет Q-таблицу.
В цикле оценки for i in range(num_episodes_eval) происходит оценка обученного агента, где он всегда выбирает лучшее действие согласно Q-таблице.

6. Что дальше?

Использование нейронных сетей для аппроксимации Q-функции (Deep Q-Networks, DQN): Использование нейронных сетей для аппроксимации Q-функции позволяет агенту работать в сложных средах с большим количеством состояний.
Policy Gradient Methods: Прямое обучение политики, а не Q-функции.
Actor-Critic Methods: Комбинирование методов на основе Q-функции и методов на основе политики.
Использование других сред: Обучение агента в других средах, таких как Atari games или роботизированные среды.

Вопрос дня: Какие задачи, по вашему мнению, лучше всего решать с помощью обучения с подкреплением? Поделитесь в комментариях! 👇

#обучениесподкреплением #reinforcementlearning #qlearning #gym #искусственныйинтеллект #ai #ml #python #дляначинающих #технологии #дзен #канал