Найти тему

Этот новый покерный бот может побить сразу нескольких профи

Даррен Элиас знает покер. 32-летний игрок - единственный, кто выиграл четыре титула World Poker Tour и заработал более 7 миллионов долларов на турнирах. Несмотря на свой опыт, он узнал что-то новое этой весной от бота с искусственным интеллектом.

Элиас помогал тестировать новое программное обеспечение от исследователей из Университета Карнеги-Меллона и Facebook. Он и еще один профессионал, Крис «Иисус» Фергюсон, каждый раз играл по 5000 рук в интернете в шестисторонних играх против пяти копий бота под названием Pluribus.

В итоге бот оказался впереди с хорошим отрывом. Попутно Элиас кое-что заметил: хотя машины часто считаются скучными, этот бот был намного лучше, чем ваш обычный покерный профи. «Он будет ставить в два-три раза больше банка, что люди делают не очень много», - говорит Элиас. «Эти огромные ставки интересны для меня и кое-что я включу в свою собственную игру».

Pluribus важен не только потому, что новый бот научил старого профессионала новым трюкам. Программное обеспечение является первым, которое превзошло лучших профессионалов в многопользовательском безлимитном техасском холдеме, который считается элитным видом покера В статье, опубликованной в журнале Science в четверг, рассказывается о том, как Плюрибус победил Элиаса и Фергюсона, а также легко выиграл в сценариях, когда один экземпляр бота разыграл пять человек-профессионалов за 10 000 рук.

«Если вы сядете за этого бота с пятью элитными профессиональными людьми, он собирается побить их и заработать на них деньги», - говорит Ноам Браун, исследователь в лаборатории искусственного интеллекта Facebook и соавтор Pluribus. «Это действительно золотой стандарт для покера».

Майкл Литтман, профессор Университета Брауна, который занимался компьютерным покером, но не участвовал в проекте, соглашается. Покер уже давно рассматривается как серьезная проблема для исследователей искусственного интеллекта, свойства которого похожи на многие реальные ситуации в мире. В отличие от шахмат, игроки в покер должны выбирать действия, не зная, какие карты у их противников, как в случае с политикой, бизнесом и войной. Сложность, которую создает игра с шестью путями, ранее делала многопользовательский Холдем недоступным для исследователей ИИ. Большая часть работы была над играми для двух игроков. По словам Литтмана, последняя важная веха в покерном искусственном интеллекте упала. «Это действительно конец многолетней работы с участием многих исследователей», - говорит он.

Браун построил Плюриб с Туомасом Сандхольмом, профессором Карнеги-Меллона. Ранее Браун был аспирантом в лаборатории Сандхольма, где пара построила бота 2017 года под названием Libratus, который стал первым программным обеспечением, которое побеждает профессионалов в гораздо более простой форме для двух игроков безлимитного холдема.

«Если вы сядете за этого бота с пятью элитными профессиональными людьми, он победит их и заработает на них деньги». Ноам Браун, соучредитель бота

Браун начал проект Pluribus после присоединения к Facebook, но он говорит, что у гиганта социальных сетей нет конкретных применений этой технологии. «Целью является фундаментальное исследование несовершенной информации и крупномасштабных мультиагентных систем», - говорит он - фраза, которая также точно описывает основной сервис Facebook. В долгосрочной перспективе идеи, протестированные в Pluribus, могут помочь автомобилям с самостоятельным вождением предсказать действия других водителей или улучшить алгоритмы обнаружения мошенничества, говорит он.

Сандхольм из CMU говорит, что он уже доказал коммерческую и даже национальную безопасность программного обеспечения, которое может разрабатывать стратегию. Он основал две компании для коммерциализации работы над стратегиями искусственного интеллекта в своей лаборатории.

Одна из этих компаний, Strategic Machine, работает над такими задачами, как улучшение ботов в видеоиграх и помогает компаниям устанавливать оптимальные цены, которые учитывают реакцию конкурентов. Другой, Strategy Robot, подписал двухлетний контракт на сумму до 10 миллионов долларов с Пентагоном в 2018 году; Сандхольм и Пентагон отказываются обсуждать контракт. Но Сандхольм сказал, что одним из преимуществ стратегии Strategy Robot является использование идей, проверенных в покере и других его проектах ИИ, чтобы сделать симулированные или даже реальные стратегии боя более устойчивыми к действиям противника. Ничто из проекта с Facebook не будет лицензировано ни одной из компаний Sandholm, хотя некоторые методы, центральные для Pluribus, предшествуют проекту.

Pluribus похож на Libratus в том, что он накапливал свои навыки, играя триллионы рук против своих версий. После каждой раздачи система проверяет, что произошло и что могло бы работать лучше - любые улучшения добавляются в ее основную стратегию.

Новый бот способен играть в гораздо более сложную игру, чем его предшественник, в значительной степени потому, что он лучше настраивает основную стратегию, проецируя возможные результаты из определенной точки в игре, известной как функция поиска. Ранний бот Брауна и Сандхольма пытался наметить все возможные повороты игры до конца. Но потребовалось бы слишком много вычислительной мощности, чтобы исследовать почти бесконечные возможности игры для шести игроков.

Вместо этого Браун и Сандхольм разработали функцию поиска, которая смотрит только на несколько шагов вперед за раз. Чтобы избежать неприятных сюрпризов, он также учитывает, как изменилась бы ценность различных действий, если бы противники изменили свои стратегии. Этот вид поиска ранее не был так хорошо адаптирован к такой игре, как покер, где некоторая информация скрыта.

Браун говорит, что новый подход также имеет то преимущество, что требует меньших вычислительных мощностей, что делает Pluribus относительно дешевым в использовании. Боту потребовалось восемь дней игры против себя на одном мощном сервере с 64 ядрами процессора, чтобы освоить игру. Боты AI, разработанные для сложных видеоигр, таких как DOTA 2, потребовали недель обучения на сотнях тысяч процессоров. «Вы могли бы разработать что-то вроде этого в службе облачных вычислений примерно за 150 долларов, что делает действительно возможным применить это к другим доменам», - говорит Браун. По его словам, сопоставимый показатель для Libratus, который играл против суперкомпьютера в течение двух месяцев, будет порядка 1 миллиона долларов.

Одно приложение, которое пара не имеет в виду для своего кода, - это выигрыш денег в покере. «Мы не собираемся выпускать код, отчасти потому, что это окажет серьезное влияние на сообщество онлайн-покера», - говорит Браун. «Мы пытаемся сделать это доступным для людей в сообществе ИИ, а не для тех, кто хочет создавать ИИ для покера».

Тем не менее, он признает, что методы, вероятно, будут распространяться в любом случае. Через год, другие люди разработали ботов в стиле Pluribus? «Я думаю, что это вполне возможно», - говорит Браун.

Элиас, чемпион по покеру, ожидает этого. По его словам, с момента появления Libratus люди уже не играют в онлайн-игры с высокими ставками, потому что боты стали более искушенными. «Если вы играете в покер с высокими ставками онлайн, вы, скорее всего, играете против бота или человека, которому бот помогает», - говорит Элиас.

Элиас говорит, что покерные профи и фанаты не должны быть отстранены от участия в игре благодаря последнему прогрессу ИИ, и это может улучшить игру. Он был рад помочь в тестировании Pluribus, потому что он ценит науку об искусственном интеллекте и потенциал для новых идей, таких как ценность ставок. Склонность бота к «донк-беттингу», когда игрок, который совпал со ставкой в ​​одном раунде, переключается на рейз в следующем, также ставит под сомнение знания покера о том, что эта тактика - плохая идея.

И все же Элиас признается в небольшой грусти. Появление Pluribus, лучшего покерного бота, знаменует собой историческую точку для игры. «Я ничего не делал, кроме как играл в покер с 16 лет и посвятил свою жизнь этому, так что быть очень стеснительным быть побежденным машиной», - говорит он. «Первый раз, когда ИИ победит, это последний раз, когда человек когда-либо победит».