Найти в Дзене
Валентин Киркоров

Когда компьютер учитель...

Возможно, вы уже слышали об использовании компьютеров в обучении детей и подростков? Как насчет их использования в образовании ... других компьютеров? Если вас интересуют компьютеры и искусственный интеллект (ИИ), вы, вероятно, слышали о машинном обучении. На нем основаны почти все крупные прорывы в развитии искусственного интеллекта за последние годы. Идея проста: мы начинаем с компьютерной программы, которая «ничего не знает», и даем ей задачу решить. Этот пробует разные способы перевода между «проблемой», поставленной перед ним, и его «решением», первоначально в темноте, в значительной степени полагаясь на случайные явления. Каждую удачную попытку мы «награждаем»: создаются новые методы решения проблем на основе тех, которые зарекомендовали себя как наиболее эффективные. Вот как, в частности, лучшие шахматные алгоритмы, такие как AlphaZero на данный момент. Эта шахматная программа изначально имела нулевое (отсюда и название) знание тонкостей шахмат, знала только ее элементарные

Возможно, вы уже слышали об использовании компьютеров в обучении детей и подростков? Как насчет их использования в образовании ... других компьютеров?

Если вас интересуют компьютеры и искусственный интеллект (ИИ), вы, вероятно, слышали о машинном обучении. На нем основаны почти все крупные прорывы в развитии искусственного интеллекта за последние годы. Идея проста: мы начинаем с компьютерной программы, которая «ничего не знает», и даем ей задачу решить. Этот пробует разные способы перевода между «проблемой», поставленной перед ним, и его «решением», первоначально в темноте, в значительной степени полагаясь на случайные явления. Каждую удачную попытку мы «награждаем»: создаются новые методы решения проблем на основе тех, которые зарекомендовали себя как наиболее эффективные.

Вот как, в частности, лучшие шахматные алгоритмы, такие как AlphaZero на данный момент. Эта шахматная программа изначально имела нулевое (отсюда и название) знание тонкостей шахмат, знала только ее элементарные правила игры. Со временем, сделав тысячи и миллионы попыток, он освоил игру на уровне мастера, превзойдя не только человеческих гроссмейстеров, но и лучшие шахматные компьютеры того времени. Однако метод действительно универсален. В 2018 году впервые появилась возможность создать четвероногого робота, который научился ходить совершенно независимо, изначально не имея никакой «теории ходьбы» - точно так же, как люди учатся ходить.

В традиционных методах машинного обучения роль учителей выполняют программисты. Например, когда мы хотим научить наш алгоритм распознавать кошек по собакам на фотографиях, мы можем подготовить обучающий набор, а затем проинструктировать программу угадывания, верны ли ее последующие предположения или нет. Так что выбор фотографий и решение остается за нами, людьми.

Проблема в том, что мы, люди, не совсем подходящие партнеры для компьютеров. Во-первых, наши интеллектуальные возможности быстро иссякают. Если мы хотим натренировать действительно отличный шахматный алгоритм, даже группа самых выдающихся гроссмейстеров скоро перестанет быть для него проблемой - и образование остановится. Отсюда набирает популярность модель, в которой шахматная программа играет последовательные партии сама с собой или с немного разными версиями себя. Так, кстати, тренировалась AlphaZero, которая достигла уровня гроссмейстера, сыграв ... 44 миллиона партий друг против друга.

Последняя цифра должна напомнить нам о втором фундаментальном человеческом ограничении: мы просто слишком свободны для компьютеров. Даже если нанять армию из 100 шахматистов для обучения AlphaZero, которые будут играть в игры с компьютером днем ​​и ночью, без передышки, каждое в течение 5 минут, весь образовательный процесс займет более 4 лет. Фактически, этот процесс занял всего около 2 дней.

Следовательно, все чаще роль «учителей» в машинном обучении компьютерных программ играют другие программы. Вот пример применения этой логики. В октябре 2020 года инженеры из лаборатории роботизированных систем в Цюрихе решили создать программу, которая управляет четвероногим роботом, который может умело ходить по разнообразной местности. Начать решили с обучения в виртуальной реальности - это еще один популярный трюк последних лет, который также используется, например, при обучении автономных дронов. Программа управления изначально была «привязана» к виртуальному шагающему роботу в физически реалистичной симуляции, и именно в этом виртуальном мире он научился ходить.

Существенным нововведением было то, что местность, по которой шел робот, была «вживую» сгенерирована другой компьютерной программой. Важно отметить, что программа «учитель» также была вознаграждена за успеваемость учащихся. Так что, в некотором смысле, в его «интересах» было создать ландшафт, который стал бы идеальным испытанием для «ученика» программы управления роботом - задача, достаточно простая, чтобы удержать виртуального робота на ногах, но достаточно сложная. постоянно учить. Программа прошла успешно, и робот, уже в виде обычной физической машины, показал себя очень умелым и хорошо справлялся с реальными проблемами, такими как грязная тропа или замшелые пни на лесной подстилке.