1 подписчик

Искусственный интеллект вновь победил человека.

3 августа 20193 авг 2019

2 мин

В этот раз ИИ одержал верх в покер. И в этом, кажется, нет ничего удивительного, ведь в этой игре искусственный разум оказывался первым и раньше. Однако сейчас все иначе: машина победила сразу пятерых игроков в «Техасский холдем» и при этом была нацелена на максимально высокий выигрыш.

Если не вдаваться в подробности правил, то «Техасский холдем» - один из самых распространенных видов покера. В тех самых сценах, которые вы видели во множестве фильмов, фигурирует именно холдем. За столом располагаются 6 игроков и постепенно делают ставки. В любой момент можно выйти из игры, но тогда обратно вложенных денег вы не получите. Так продолжается до тех пор, пока не настанет напряженная «битва» один на один, в которой победитель забирает все.

В недавнем эксперименте специалисты по разработке ИИ из Facebook и Университета Карнеги-Меллон «усадили» за стол к игрокам ИИ, который имел одну задачу: выиграть как можно больше денег.

Разработка прибыльного алгоритма для игры в покер одновременно с несколькими игроками (а в теории и за несколькими столами одновременно) — задача куда более сложная, чем научить ИИ играть в шахматы или го. В основном от того, что в покере дается лишь очень ограниченная информация о том, что происходит за покерным столом. То есть, если в тех же шахматах компьютер «видит» всю картину целиком, включая расположения фигур противника, в покере ИИ знает лишь то, какие карты у него на руках и какие выложены на стол. Также можно, что называется, «посчитать карты», предугадав, какие из них уже «ушли», что позволит предсказать возможные комбинации. Но это все равно сложнее, чем анализировать «открытое» шахматное поле.

Благодаряновым алгоритмам обучения, система под названием Pluribus за 12 дней и 10 000 раздач сразилась с 12 профессиональными игроками в покер. В итоге Pluribus выигрывал в среднем по 5 долларов за раздачу и примерно по 1000 долларов за час.

Программисты придумали способ работы искусственного интеллекта, который позволил ему играть крайне эффективно. Вместо того, чтобы пытаться предсказать, как его противники будут вести себя до конца игры, Pluribus был спроектирован так, чтобы «смотреть» только на два или три хода вперед. Это позволило пустить ресурсы системы на более полезные действия. Например, на развитие возможности блефовать.

Исследователи объявили, что не будут выкладывать алгоритм и все, что было связано с его разработкой, в свободный доступ. При этом наработки, полученные во время недавнего эксперимента, очень важны: они позволят, например, выявлять финансовые махинации на рынке ценных бумаг, помогут автоматическим системам регулировки трафика и будут полезны даже при разработке более эффективных автопилотов.