В мире искусственного интеллекта долгое время доминировала идея, что именно reinforcement learning (RL, обучение с подкреплением) — ключ к созданию универсального искусственного разума (AGI). Однако Андрей Карпати, один из самых авторитетных AI-исследователей, в своей свежей публикации подверг сомнению этот подход и предложил альтернативу: эволюцию через «рефлексию и ревизию» — то есть обучение на собственных ошибках и осознанное извлечение уроков, как это делает человек. Почему RL не ведёт к AGI? Карпати отмечает: RL отлично работает для коротких, чётко определённых задач, где результат можно быстро оценить (например, игры Atari). Но по мере усложнения задач и увеличения их длительности эффективность RL резко падает. Если задача длится часы, а обратная связь — всего один итоговый балл, то обучение становится крайне неэффективным: агенту сложно понять, какие именно действия привели к успеху или провалу. Кроме того, RL принципиально отличается от того, как учится человек. Люди после каж
Karpathy: конец эпохи «силового» RL и рождение новой парадигмы AI-обучения
15 июля 202515 июл 2025
1
3 мин