Найти в Дзене
Social Mebia Systems

Karpathy: конец эпохи «силового» RL и рождение новой парадигмы AI-обучения

В мире искусственного интеллекта долгое время доминировала идея, что именно reinforcement learning (RL, обучение с подкреплением) — ключ к созданию универсального искусственного разума (AGI). Однако Андрей Карпати, один из самых авторитетных AI-исследователей, в своей свежей публикации подверг сомнению этот подход и предложил альтернативу: эволюцию через «рефлексию и ревизию» — то есть обучение на собственных ошибках и осознанное извлечение уроков, как это делает человек. Почему RL не ведёт к AGI? Карпати отмечает: RL отлично работает для коротких, чётко определённых задач, где результат можно быстро оценить (например, игры Atari). Но по мере усложнения задач и увеличения их длительности эффективность RL резко падает. Если задача длится часы, а обратная связь — всего один итоговый балл, то обучение становится крайне неэффективным: агенту сложно понять, какие именно действия привели к успеху или провалу. Кроме того, RL принципиально отличается от того, как учится человек. Люди после каж

В мире искусственного интеллекта долгое время доминировала идея, что именно reinforcement learning (RL, обучение с подкреплением) — ключ к созданию универсального искусственного разума (AGI). Однако Андрей Карпати, один из самых авторитетных AI-исследователей, в своей свежей публикации подверг сомнению этот подход и предложил альтернативу: эволюцию через «рефлексию и ревизию» — то есть обучение на собственных ошибках и осознанное извлечение уроков, как это делает человек.

Почему RL не ведёт к AGI?

Карпати отмечает: RL отлично работает для коротких, чётко определённых задач, где результат можно быстро оценить (например, игры Atari). Но по мере усложнения задач и увеличения их длительности эффективность RL резко падает.

Если задача длится часы, а обратная связь — всего один итоговый балл, то обучение становится крайне неэффективным: агенту сложно понять, какие именно действия привели к успеху или провалу.

Кроме того, RL принципиально отличается от того, как учится человек. Люди после каждого опыта проводят «разбор полётов»: что получилось, что нет, что попробовать в следующий раз. Эти выводы становятся частью их «второй натуры» — и именно такой механизм, по мнению Карпати, сегодня отсутствует в AI.

Новый подход: рефлексия и ревизия вместо «слепого» проб и ошибок

Карпати предлагает новый алгоритмический подход: после серии попыток агент не просто получает итоговый балл, а анализирует весь процесс, выделяет удачные и неудачные решения, формулирует «уроки» в виде текстовых подсказок и добавляет их в свою базу знаний. Это напоминает, как человек записывает выводы после экзамена или проекта, чтобы в следующий раз действовать лучше.

Пример: если LLM плохо справляется с подсчётом букв в слове, можно явно добавить в промпт инструкцию «разделяй буквы запятыми и считай по одной» — и модель сразу начинает работать лучше. Но как сделать так, чтобы такие «патчи» появлялись не от инженеров, а рождались в процессе самостоятельного анализа ошибок самой моделью? Как автоматизировать этот цикл «ошибка — анализ — вывод — интеграция»?

Курс на самообучение и память

Карпати считает, что будущее за системами, которые умеют не только пробовать и ошибаться, но и осмысленно рефлексировать, накапливать и обобщать опыт. Это может быть реализовано через специальную память, где хранятся «уроки» и паттерны, которые затем используются для обновления поведения модели. Такой подход ближе к человеческому обучению и может дать новый S-образный скачок в развитии AI.

Критика RL: «силовой»

В дискуссии поддержали и другие эксперты. Например, бывший исследователь OpenAI Кевин Лу призвал отказаться от «бессмысленных» RL-экспериментов ради реальных продуктовых решений, а другие участники отметили, что RL — это по сути «насильственный перебор» (brute-force), а не интеллектуальная стратегия.

Вместо этого, как отмечает Лу, именно интернет и масштабные данные стали катализатором прорыва в AI, а не RL или даже архитектура Transformer. Ключ к следующему скачку — не в новых архитектурах, а в новых способах организации данных, памяти и самообучения.

К чему это ведёт?

Карпати и его единомышленники уверены: эпоха «слепого» RL подходит к концу. Будущее — за системами, которые умеют анализировать свои ошибки, формулировать выводы и интегрировать их в дальнейшее поведение. Это не только ускорит обучение, но и сделает AI более гибким, адаптивным и «человечным».

Главная мысль:
AI следующего поколения будет учиться не только на наградах, но и на собственных осмысленных выводах — как человек, который после каждого опыта делает разбор, извлекает уроки и становится умнее. Именно эта парадигма может привести к настоящему качественному скачку в развитии искусственного интеллекта.

Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/