В 2020 году алгоритм машинного обучения OpenAI GPT-3 поразил людей грамотным составлением предложений. В этом году звездой стал DALL-E 2, двоюродный брат GPT-3, обученный работе с текстом и изображениями. Созданные им картины с сюрреалистическими картинками астронавтов верхом на лошадях и странными портретами несуществующих людей вызвали волну хайпа. Теперь компания заявляет, что ее последняя модель ИИ научилась играть в Minecraft после просмотра около 70 000 часов видео на YouTube.
ИИ учится выживать
Это не первый алгоритм для игры в Minecraft, но более ранние версии работали исключительно в «песочнице», в то время как новый ИИ играет в режиме «выживания», причём используя стандартные команды клавиатуры и мыши.
Из коробки алгоритм научился базовым навыкам, таким как рубка деревьев, изготовление досок и столов для крафта. Кроме того, он плавает, охотится, готовит и «прыгает со столба».
Благодаря точной настройке, то есть обучению модели на более целенаправленном наборе данных, удалось обнаружить, что алгоритм исправно выполняет все эти задачи и даже начал развивать свое мастерство: изготавливать деревянные и каменные инструменты, а также строить простые убежища, исследовать деревни и совершать набеги на сундуки.
После дальнейшей тонкой настройки и обучения он научился создавать алмазную кирку — навык, на выполнение которого игрокам-людям требуется около 20 минут и 24 000 действий.
Это заметный результат. ИИ уже давно пытается покорить открытый геймплей Minecraft. Такие игры, как шахматы и Go, которые ИИ уже освоил, имеют четкие цели, и прогресс в достижении этих целей можно измерить. Чтобы справиться с Go, исследователи использовали обучение с поощрением, когда алгоритму ставится цель, и он вознаграждается за прогресс в достижении этой цели. Minecraft, в свою очередь, имеет бесконечное количество возможных целей, прогресс менее линейный, и алгоритмы глубокого обучения с поощрением обычно не работают.
Например, в конкурсе MineRL Minecraft 2019 года для разработчиков ИИ ни одна из 660 заявок не достигла относительно простой цели конкурса — добычи алмазов.
Чтобы вознаградить творческий подход и показать, что использование вычислительной мощности для решения проблемы не всегда является решением, организаторы MineRL наложили строгие ограничения на участников: им был разрешен один графический процессор NVIDIA и 1000 часов записанного игрового процесса. Хотя участники показали превосходные результаты, результат OpenAI, достигнутый с использованием большего количества данных и 720 графических процессоров NVIDIA, показывает, что вычислительная мощность по-прежнему имеет преимущество.
Особенность обучения ИИ через видео
Создав алгоритм предварительной подготовки видео (VPT) для Minecraft, OpenAI вернулся к подходу, который он использовал с GPT-3 и DALL-E: предварительному обучению алгоритма на большом наборе данных созданного человеком контента. Но успех алгоритма был обеспечен не только вычислительной мощностью или данными. Обучать ИИ Minecraftу на таком большом количестве видео раньше было непрактично.
Необработанные видеоматериалы не так полезны для поведенческого ИИ, как для генераторов контента, таких как GPT-3 и DALL-E. Он показывает, что люди делают, но не объясняет, как они это делают. Чтобы алгоритм связывал видео с действиями, ему нужны метки. Например, видеокадр, показывающий коллекцию объектов игрока, должен быть помечен как «инвентарь» рядом с командной клавишей «E», которая используется для открытия инвентаря.
Маркировать каждый кадр в 70 000 часов видео было бы… настоящим безумием. Поэтому команда заплатила подрядчикам Upwork за запись и маркировку основных навыков Minecraft. Полученные 2000 часов такого видео использовали, чтобы научить второй алгоритм маркировать видео Minecraft, и уже этот алгоритм, IDM, промаркировал все 70 000 часов видеоматериалов на YouTube. Причём IDM точно промаркировал около 90% команд клавиатуры и мыши.
Подобный подход, при котором сначала обучают алгоритм маркировки данных, чтобы сделать доступными наборы данных о поведении в Интернете, может помочь ИИ освоить и другие навыки. То есть ИИ сможет обучаться, просматривая огромное количество видео в Интернете. Помимо Minecraft, VPT может помочь в создании алгоритмов, которые будут управлять компьютерами по запросу (представьте, например, что вы просите свой ноутбук найти документ и отправить его по электронной почте вашему начальнику).
Алмазы для всех
К большому огорчению организаторов конкурса MineRL, результаты показывают, что вычислительная мощность и ресурсы по-прежнему являются критичными для развития ИИ.
Помимо стоимости мощностей, OpenAI заявила, что одни только подрядчики Upwork обошлись им в 160 000 долларов. С другой стороны, ручная маркировка всего набора данных исчислялась бы миллионами и требовала невообразимого количества времени. И хотя вычислительной мощностью нельзя пренебречь, модель на самом деле довольно маленькая. Сотни миллионов параметров VPT на порядки меньше, чем сотни миллиардов параметров GPT-3.
Поиск более эффективных и быстрых способов обучений – важная задача на сегодняшний день. Ребенок может изучить основы Minecraft, посмотрев одно или два видео. Сегодняшнему ИИ требует гораздо больше, чтобы освоить даже примитивные навыки. И на сей раз OpenAI настроен поделиться с другими. Если доступ к GPT-3 и DALL-E ограничен из опасений неправильного использования, то данные по VPT открыты, компания также сотрудничает с MineRL. В этом году участники могут свободно использовать, модифицировать и настраивать новейшие разработки Minecraft AI.
Скорее всего, на этот раз они преуспеют в добыче алмазов.