1,3K подписчиков

Автор курса «Обучение с подкреплением» Сергей Николенко: «В течение 20-30 лет модель ИИ ни в чём не будет уступать людям»

Вы когда-нибудь задумывались о том, как роботы обучаются ходить и переносить вещи, программа AlphaZero — играть в шахматы и го, а современные языковые модели — лучше понимать, что от них нужно людям?

Вы когда-нибудь задумывались о том, как роботы обучаются ходить и переносить вещи, программа AlphaZero — играть в шахматы и го, а современные языковые модели — лучше понимать, что от них нужно людям?

Всё это — примеры задач, которые можно решать с помощью обучения с подкреплением. Подробнее о том, что это обучение из себя представляет и какое образование лучше получать школьнику, рассказал Сергей Николенко, старший научный сотрудник Санкт-Петербургского отделения Математического института имени В. А. Стеклова РАН, Head of AI компании Synthesis AI и автор нового курса по искусственному интеллекту на Сириус.Курсах.

Игры с собой и противником

— Сергей, можете рассказать максимально просто, что такое обучение с подкреплением?

Это раздел машинного обучения. Обычно в машинном обучении заранее подготавливается набор данных, так называемый датасет. Например, на предварительно собранных датасетах модели учатся распознавать изображения или писать осмысленные тексты (как та же GPT-4).

Но иногда в процессе обучения датасет не нужен или его невозможно подготовить. Например, уже сейчас ясно, что нет смысла учиться играть в шахматы, анализируя старые партии гроссмейстеров, — так модель никогда не будет играть лучше их. Разумнее начать с изучения правил и попыток обучиться, играя с самой собой или противником — другой программой или моделью.

В обучении с подкреплением модель машинного обучения (агент) учится решать задачи, взаимодействуя с окружающей средой и получая за это награду. На бытовом уровне это напоминает дрессировку собак: если те правильно выполняют команду, то получают угощение. Животные, желая увеличить число лакомств, стараются освоить новые навыки.

Вот и агент делает ходы, а окружающая среда награждает его или наказывает по результатам партии. А пока игра идёт, окружающая среда делает ход за противника и переводит агента в новое состояние, где тому нужно снова думать и принимать решение, чтобы получить награду.

Вы когда-нибудь задумывались о том, как роботы обучаются ходить и переносить вещи, программа AlphaZero — играть в шахматы и го, а современные языковые модели — лучше понимать, что от них нужно людям?-2

— Получается, агент никогда не использует готовый набор данных?

Да, он собирает его сам по мере взаимодействия с окружающей средой. Теоретически агент мог бы сыграть много случайных партий в шахматы и посмотреть, в каких из них он победил и за счёт чего, проанализировать ходы. Такой способ, конечно, сработал бы в итоге, но представьте себе, сколько партий бы в этом случае потребовалось! Столько, боюсь, не найдётся даже атомов во Вселенной.

Обучение с подкреплением — это история о том, как более эффективно организовать процесс получения данных. Чтобы, с одной стороны, хорошо играть (использовать те знания, что у агента уже есть), а с другой — исследовать новое. В той же шахматной партии это может выглядеть, к примеру, как попытка агента разыграть непривычный дебют. Важно всё время искать баланс между уже имеющимися знаниями и исследованием.

— Насколько реальная практика отличается от того, что обсуждается на новом курсе «Обучение с подкреплением»?

Специалисты в этой области пользуются теми же идеями и алгоритмами, которые мы обсуждаем на курсе. Разница в том, что в реальной практике, где нужно обучать настоящих роботов или играть в шахматы на высоком уровне, очень много компьютерной инженерии, потому что используются большие модели, требуются гигантские вычислительные ресурсы, а обучать модели нужно параллельно на тысячах видеокарт или специальных процессорах. Про инженерию мы в курсе не говорим, но с математической точки зрения всё остальное идентично.

— В рамках курса вы в основном приводите примеры из игр: блэкджека, шахмат, го. Сейчас мы выяснили, что обучение с подкреплением нужно для робототехники. А есть другие применения?

Конечно! Например, именно обучение с подкреплением оказалось тем секретным соусом, который превратил GPT-3 в ChatGPT, и в дальнейшем это привело к происходящей прямо сейчас революции языковых моделей.

GPT-3 обучалась предсказывать следующее слово в заданном тексте. Это очень глубокая задача, успешное решение которой требует понимания и текстов, и окружающего мира, и решения задач — да всё что угодно можно выразить в виде текстового диалога, хоть в те же шахматы поиграть.

Но в GPT-3 эти возможности были скрыты, ведь вероятное продолжение текста необязательно должно быть полезным для пользователя. В живом диалоге можно уйти от ответа, сказать «Я не знаю» (даже если знаешь), ответить вопросом на вопрос, начать новую тему, и все эти продолжения будут вполне вероятны!

Поэтому в обучении современных языковых моделей есть этап дообучения (fine-tuning), на котором люди оценивают, насколько ответ модели на заданный вопрос был полезным. А модель, как прилежный ученик, пытается обучиться получать хорошие оценки и не получать плохих — и это в точности постановка задачи обучения с подкреплением! Такой метод называется обучением с подкреплением на основе человеческих предпочтений (reinforcement learning from human feedback, RLHF), и без него от GPT-4 или Gemini (нейросеть от Google) было бы очень мало толку.

От фундаментального к прикладному

— Посоветуйте школьнику, который хочет заниматься машинным обучением, на кого идти учиться: программиста или математика?

На математика. Я считаю, что всегда стоит отдавать предпочтение максимально фундаментальным дисциплинам. Получив математическое образование, вам будет очень легко при желании перейти в программирование, а вот наоборот — почти невозможно. Идти от фундаментального к прикладному всегда гораздо проще.

Фото из личного архива Сергея Николенко.
Фото из личного архива Сергея Николенко.

— Но если школьник любит программирование, а математику — не очень, получается, ИИ не для него?

Отвечая на этот вопрос, надо пройти по тонкой грани. С одной стороны, важно честно признать, что искусственный интеллект — это всё-таки не алгебраическая геометрия, он не требует суперфундаментальных знаний математики. Для погружения в эту область хватит того, что вы получите, например, на первых трёх курсах факультета математики и компьютерных наук СПбГУ. С другой стороны, эти три курса нужно освоить действительно хорошо. Они необязательно должны быть частью именно математического образования, но если совсем не знать, что такое, например, распределение вероятностей, то разобраться в ИИ будет сложно.

— Чтобы заниматься машинным обучением, школьнику вообще нужно получать высшее образование? Или достаточно немного вникнуть в высшую математику, программирование, актуальный ИИ и пойти работать?

Как говорил Нильс Бор, предсказывать сложно, особенно будущее. Очевидно, что сейчас мы стоим на пороге больших трансформаций, связанных с ИИ. Вполне возможно, что уже через год, когда слушатели курса «Обучение с подкреплением» будут выпускаться из школ, система образования изменится и студенты получат больше знаний, просто общаясь с GPT-5 один на один, чем сидя на лекциях со множеством людей. Никто не знает, что будет дальше, но возможно всё.

ИИ всех заменит

— Ваши предыдущие исследования были посвящены криптографии, сложности алгоритмов и даже высшей алгебре. Сейчас вы больше занимаетесь машинным обучением и сетевыми алгоритмами. Как вы пришли в эту область, что вам в ней интересно?

Это как раз хорошая иллюстрация тезиса «от фундаментального к более прикладному». Я учился на матмехе СПбГУ и был чистым математиком. Тема моего диплома звучала как «А₂-доказательство структурных теорем для группы Шевалле типа F₄». Боюсь, сейчас я даже не смогу объяснить, что означают эти слова. Какое-то время занимался высшей алгеброй, доказывал теоремы, а в аспирантуру пошёл заниматься информатикой, но всё ещё очень теоретической.

Потом в Петербурге появился Computer Science Club, который организовал и координировал мой однокурсник Александр Куликов, там можно было послушать открытые лекции и пройти курсы. Со временем клуб перерос в Computer Science Center и стал выдавать дипломы за обучение. Саша приглашал хороших специалистов со всего мира, преимущественно русскоязычных, чтобы те прочитали небольшой курс или несколько лекций в выходные. В какой-то момент один из организаторов предложил разработать курс по машинному обучению, и я подумал: почему бы и нет? Шёл 2006 год. Так я начал заниматься ИИ.

Автор фото: Автор Alexander V. Smal, Computer Science Club.
Автор фото: Автор Alexander V. Smal, Computer Science Club.

— Что нас ждёт в области ИИ в будущем?

Искренне считаю, что мы доживём до сильного искусственного интеллекта. В ближайшие 20–30 лет появится модель ИИ, которая ничем не будет уступать людям, и в этой оценке я, честно говоря, стараюсь быть консервативным. Совсем скоро нам предстоит ответить на два вопроса. Первый — как сделать так, чтобы люди это пережили? Второй — если даже мы это переживём, то зачем вообще будем нужны? Чем мы будем заниматься? Пока на эти вопросы однозначных ответов нет.

— Получается, слова о том, что ИИ — серьёзная угроза для людей и что со временем он лишит многих из нас работы, не такие уж и страшилки?

Это объективная реальность. Хоть прогресс и менял нашу жизнь всегда, но такого в истории человечества ещё не происходило. Когда случались промышленные революции, люди не теряли экономический смысл. Например, когда в Англии луддиты разрушали станки, их можно было понять: многих специалистов заменили новые механизмы, и жизнь рабочих действительно ухудшилась. Но человечество в целом, а не конкретный ткач в конкретном городе от появления ткацких станков только выиграло: люди постепенно переходили от «машинного», механического труда к более «человеческому», творческому или основанному на общении с другими людьми. Ситуация с ИИ выглядит иначе: кажется, что автоматизируется в первую очередь как раз творческий труд, да и оставшийся механический, видимо, не за горами — и что тогда останется людям? Когда мы уже не сможем быть полноценными экономическими агентами, человечеству придётся придумать себе новый смысл. С другой стороны, повлиять на это мы всё равно не можем, разве только запретив исследования в области искусственного интеллекта. Но я в такие запреты не верю.

— Что бы вы хотели пожелать слушателям курса «Обучение с подкреплением»?

Возможно, компьютеры нас всех заменят, но что-то мне подсказывает, что развивать мозг единственно правильное, что в этой ситуации можно делать. Поэтому совет очень простой: изучайте математику, изучайте искусственный интеллект, и давайте вместе становиться лучше.

Стать лучше — задача, которую каждый решает самостоятельно. Лучше понимать темы из математики, программирования и искусственного интеллекта — цель, которую можно достичь вместе с Сириус.Курсами. На наших курсах часто непросто, но всегда интересно!

Изучайте расписание и планируйте обучение до конца года!