Андрей Карпаты Часть 7: Обучение с подкреплением (Reinforcement Learning) и разбор модели DeepSeek-R1