Найти тему
VK Cloud

ИИ играет в Quake III лучше человека

Оглавление

В популярных играх-стрелялках захват флага соперника – ключевой соревновательный этап, на котором боты сильно уступают человеку. Их игровой уровень ограничивается программированием на несложные задачи, но использование искусственного интеллекта и машинного обучения обещают изменить эту ситуацию.

Разработчики из DeepMind внедрили алгоритм, с помощью которого масштабирование некоторых классических эволюционных идей вышло на новый уровень. Для этого специалисты обучали ИИ командному взаимодействию, применив метод поощрений, при котором программные агенты получали награду независимо от успеха в игре.

Что за FTW

DeepMind назвали cвой искусственный интеллект FTW или For The Win. С помощью нейронной сети он учится прямо на экранных пикселях. В методе использован подход, который аналогичен работе зрительной коры человеческого мозга. При этом роль нейронов досталась математическим функциям, расположенным в слоях. Вся информация поступает в двухканальную сеть с LSTM-памятью (англ. long short-term memory - многократная кратковременная память) для распознавания долгосрочных зависимостей. Один из каналов обрабатывает оперативные данные с высокой скоростью, а другой работает медленно, анализируя и формируя стратегии. Подключены они оба к вариационной памяти, которая прогнозирует изменения в игровом мире и взаимодействует с эмулируемым игровым контроллером.

Искусственные нейроны

Нейроны ИИ активируются с помощью цветового шаблона: чем ближе два пикселя между собой в пространстве, тем вероятнее использование одной и той же игровой модели. Рабочие схемы представляют собой цветные кластеры, распознавая которые агенты самоорганизовываются в игровом процессе. По мере обучения ИИ наращивает искусственные нейроны благодаря кодированию определенных игровых ситуаций.

Результаты исследования

Несколько десятков обученных агентов DeepMind отыграли по 450 тысяч игр на завоевание флага каждый, что примерно равняется четырем годам игрового стажа. Если сравнивать с уровнем профессионального игрока по рейтингу Эло, то ИИ достиг его навыков поучаствовав в 225 тысяч партиях. В результате ИИ DeepMind стало доступно человеческое поведение: расположение в лагере противника, защита базы от нападения, передвижение вместе с союзниками по команде.

Испытание агентов на полноценной карте Quake 3 Arena с использованием объектов Future Crossings и Ironwood показало успех ИИ в тестовых матчах с людьми. Исследования шаблонов работы их нейронных сетей показало, что в игровом процессе задействовались нейроны в виде комнат, видимости партнеров по команде, наличие или отсутствия агентов в лагере противника. Эти цветовые кластеры активировались на основе входящих данных.

Чтобы освоить игровую тактику и взаимодействовать со своими партнерами по команде агенты вынуждены были опираться только на обратную связь с результатами соревнования, без подсказок со стороны тренера или учителя. Это демонстрирует захватывающий результат: ИИ воспринимает свое окружение, как человек-игрок – от первого лица.