Найти в Дзене
Концептуальное ничто

Теория игр: дилемма заключенного

Оглавление

Концептуальное ничто

Дисклеймер: канал не научно-популярный, а я не знаю теорию игр в том объеме, чтоб по ней лекции читать, поскольку большинство моих "знаний" по этой теме получены из книжек по саморазвитию (кстати, "Теория игр" Диксита и Нейлбаффа огонь книга, всем подобным мне любителям повыпендриваться знаниями в какой-то случайной теме очень советую) поэтому не ждите грамотного и обширного раскрытия темы

В общем-то опять тема статьи не самая оригинальная, учитывая что процентов девяносто людей, у которых от словосочетания "теория игр" не отключается мозг, сразу представляют себе эту пресловутую дилемму заключенного (хотя правильнее было бы называть её дилеммой заключенных, потому что если он один, то никаких проблем не возникает). Конечно, можно было бы выбрать какую-нибудь более нетривиальную тему, но я как всегда имею Наполеоновские планы, связанные с целой кучей статей про теорию игр (да, я начитался книжек и теперь хочу умничать много раз, не пропадать же добру), так что логично начать с чего-нибудь попроще и пораспространеннее.

Типичный знаток теории игр разбирает 6752 ход своей единственной победной стратегии
Типичный знаток теории игр разбирает 6752 ход своей единственной победной стратегии

Стандартный пример

Опять же, я не Википедия, расписывать всё с точки зрения формальной постановки ситуации не буду, к тому же наверняка большинство в общих чертах и так представляет, что это такое, но все-таки дам сначала классический пример, чтобы показать что я сильно умный, ой, в смысле для общего развития.

Итак, есть два стула заключенных, которые попались на совершении преступления. Но каким-то образом получилось так, что улик против них недостаточно, чтоб посадить их по полной, только по какой-нибудь ерундовой статье на полгодика. Ну например за то, что они маски медицинские на дело не надели, тем самым способствуя распространению коронавируса (оп, актуалочка. Я слышал, что если вставлять в свой текст "очень оригинальные" шутки про корону, его интеллектуальная ценность возрастает минимум в 10 раз). В общем, такая ситуация полицейских категорически не устраивает и они решают прибегнуть к классическим эффективным цыганским фокусам для получения признаний. Нет, они не избивают арестантов пока те не признаются, это слишком эффективный метод, там ни одна теория игр не поможет. Они просто разводят заключенных по разным комнатам и предлагают сдать друг друга - если оба так и продолжат молчать, им дадут по полгода, но если один признается, а другой нет, то признавшегося освободят за помощь следствию, а второго засадят на десять лет за отказ признать свою вину. Ну а если признаются оба, то оба получат два года за преступное деяние в сговоре. На этом стандартную формулировку можно закончить, просто дав таблицу выигрышей и некоторые комментарии, но зачем тогда создавалась эта статья? Поэтому вспомним, что мы тут не быдлота какая-нибудь математическая, а высокоинтеллектуальные любители искусства, так что сейчас будет притянутый за уши пример из классической литературы.

-3

Вспомним такое очаровательное произведение Гоголя "Ревизор". А именно, момент, где все чиновники города бегут распихивать Хлестакову взятки по карманам. Опустим все другие их мотивы, страх, и прочее, а также саму выдачу взяток и то, что Хлестаков на самом деле никакой не ревизор. Попечитель богоугодных заведений Земляника поначалу пытается обезопасить себя, не давай взятки - он закладывает всех своих "друзей", рассказывая про их грязные делишки. А теперь, чтобы окончательно натянуть сову на глобус, представим себе, что в городе существует всего два чиновника, таких как Земляника, то есть желающих выйти сухими из воды, заложив друг друга Хлестакову, который является настоящим ревизором. Рассмотрим все возможные случаи и их условные "выигрыши".

  • Оба не сдали друг друга (и каким-то чудом скрыли все нарушения при обходе заведений) - ревизор уехал довольный, никого не наказал. Максимальный выигрыш для обоих - условно 3
  • Один сдал, другой не сдал - ревизор наказал того, которого заложили, но и к зонам ответственности второго присматривался более пристально. Условный выигрыш заложившего - 2, не заложившего - -1
  • Оба сдали - ревизор наказал обоих, но моральное удовлетворение от того, что и второй был наказан, немного сгладило это впечатление. Выигрыш - условно 0
Стандартная табличка выигрышей для дилеммы заключенного в нашем случае выглядит вот так
Стандартная табличка выигрышей для дилеммы заключенного в нашем случае выглядит вот так

Тогда, если анализировать выгодность стратегий для каждого из чиновников, очевидно можно сказать, что отдельно каждому из них выгоднее сдать другого. Если другой чиновник не сдаст вас, то ваш выигрыш может быть равен либо нулю либо двум. Соответственно, чтоб выбить максимальный выигрыш в виде двойки, нужно сдать своего коллегу. Если же он сдаст вас, то лучший ваш выигрыш может быть равен нулю, и для этого вам тоже нужно сдать коллегу. Так что, опуская моральную сторону вопроса, вариант предательства здесь предпочтительней, а если выпендриваться умными словечками, он является доминирующей стратегией - при любом ходе оппонента такая стратегия дает вам максимальный выигрыш из возможных. То есть любой рациональный человек в такой ситуации должен выбрать стратегию предательства. Но если предположить, что оба играющих - рациональны, то единственный возможный вариант исхода - оба закладывают друг друга и получают условно равный нулю выигрыш. Но нетрудно заметить, что для обоих игроков это не максимальный возможный выигрыш. Иными словами, если каждый игрок по отдельности сделает рациональный выбор, то вместе они придут к нерациональному результату. Собственно, в этом и заключается пресловутая дилемма заключенного.(если ну оооооочень сильно выпендриваться, то можно задвинуть про то, что дилемма здесь в том, что равновесие Нэша в этой игре не соответствует Парето-оптимальному решению, но такие заумные формулировки даже для меня перебор)

Трагедия общин

По сути, та же самая дилемма заключенного, только распространенная на большую группу людей, и с этой ерундой сталкиваются в жизни все, по моему чуть ли не чаще чем с изначальной дилеммой. Любая идиотская ситуация, в которой группа людей не может что-либо сделать, потому что все ждут, когда это сделает другой человек, является по сути трагедией общин.

-5

Солдаты сидят в окопах и никак не могут подняться в атаку, потому что никто не хочет быть первым, или ученики выслушивают несправедливые обвинения учителя и никто не возражает, хотя все знают, что это неправильно, или зеркальная ситуация - все туристы мусорят где попало, потому что именно от их небольшого сора ничего не изменится, и прочее. Во всех этих случаях, если каждый человек мыслит рационально, исход будет далеко не самый хороший - каждому отдельно взятому солдату выгоднее сидеть в окопе, поскольку если он вскочит первым, то точно умрет, если не вскочит никто ещё, и скорее всего умрет, даже если вскочат остальные. Так что оставаться в окопе - доминирующая стратегия, однако если так рассудят все, то атака захлебнется, противники победят и тогда уж точно прикончат абсолютно всех. Протест против учителя может обернуться хоть каким-то успехом если достаточно большая группа людей поддержит этот протест (ха-ха, смешно, когда это протесты против учителей успехом оборачивались, выдумал я пример конечно), но при этом вовсе не обязательно, чтобы этой группой был весь класс. Тогда доминирующая стратегия - промолчать в любом случае. Если все вокруг мусорят, ещё один мусор от одного туриста ничего не изменит, а если все вокруг не мусорят, то ничего страшного не произойдет, если намусорит один. И естественно, так думают практически все. И практически по этому поводу есть один прекрасный отрывок из "Стража! Стража!" Терри Пратчетта:

Они избегали смотреть друг другу в глаза, из страха увидеть там отражение собственных мыслей. Каждый думал: «Сейчас кто-нибудь (не я) обязательно выскажется, выразит протест, и тогда я пробормочу что-нибудь в поддержку, нет, это нельзя будет истолковать так, словно я что-то действительно СКАЗАЛ, я ведь не такой дурак, но пробормочу я очень твердо, так что ни у кого не останется никаких сомнений – я действительно не одобряю это, потому что в такие моменты любому человеку чести подобает почти встать и почти сказать, чтобы быть почти услышанным…» Но никто не произнес ни слова. «Вот трусы», – подумал каждый.

Эх раз, да ещё раз

В общем-то дилемма заключенного, взятая в вакууме, это конечно очень весело, но в жизни практически никогда ничто не сводится к одному единственному взаимодействию, поэтому помимо одного "раунда" такой дилеммы очень часто рассматривают несколько повторяющихся - это может быть сотрудничество в бизнесе или ещё что-нибудь подобное, но основное отличие здесь в том, что результат текущего раунда может непосредственно повлиять на все последующие, и таким образом предательство становится наказуемым. Я не просто так тут со шрифтами игрался и выделил это слово жирным, оно на самом деле является наверное ключевым свойством любых повторяющихся игр, для которых можно рассматривать какие-то другие стратегии, отличные от "одноразовой". Потому что если предыдущий раунд никак не влияет на последующий, то такая ситуация ничем не отличается от изначального примера - предательство всё ещё доминирует.

-6

Но как выгоднее поступить, если вы знаете, что ваше предательство может быть наказуемым? Ладно, это был риторический вопрос, я тут не буду четыреста лет рассуждать о разных подходах к делу, учитывая что это делали тучи других людей, даже проводили чемпионат среди компьютерных моделей с разным подходом, но победила там, насколько я знаю, очень простая модель. Что с одной стороны странно, а с другой логично.
В общем-то, вся суть лучшей(если мы говорим об адекватных стандартных выигрышах и прочем, конечно. Понятно, что если назначить за предательство огромнейший выигрыш, ситуация несколько изменится) стратегии для повторяющейся дилеммы заключенных заключалась в копировании предыдущего хода соперника. По сути, её можно назвать терпилой имитатором. Она начинает с сотрудничества, то есть не выдает другого игрока, если следовать нашему примеру, а в следующих раундах просто повторяет его ход, что по сути обеспечивает наказуемость - если такую стратегию предать на одном ходу, она предаст тебя на следующем. Собственно, тут всё логично, мне и добавить нечего.

Ошибки

Всё было бы просто замечательно и все в мире были бы счастливыми имитаторами, если бы в жизни не было фактора случайных ошибок и искажения информации. Например, вы и ваш соперник на первом ходу как и положено выбрали стратегию сотрудничества и не заложили друг друга. Но тут откуда-нибудь с дерева свалился кто-то третий, о ком вы оба ничего не подозревали, и заложил вашего оппонента. Тот, естественно, решит что его сдали вы, потому что вроде как в игре то только вы двое (о третьем вы оба так и не узнали и никогда не узнаете, он здесь символизирует какие-то погрешности и случайности). Соответственно, по стратегии имитатора следующий шаг - месть, то есть на втором ходу уже ваш оппонент заложит вас. И вы, согласно стратегии, на следующем шаге будете мстить ему, а на следующем после него он будет мстить вам и так далее до бесконечности. Короче говоря, любое искажение информации или случайность ломает утопию взаимного имитаторства к чертовой матери, что не очень то хорошо.
Решать эту проблему можно по разному, например ввести в стратегию поблажки и начинать наказывать только со второй ошибки, но это всё уже индивидуально, сложно, и вообще я устал, пустите меня домой.
Напоследок вот вам ещё
ссылка на кайфовую игру, где всё рассказано приятнее, понятнее и нагляднее (да, её можно было пихнуть в начале, но как бы я тогда заставил вас прочитать статью?))) В общем, на этом всё, спасибо за внимание, надеюсь вы не захлебнулись в воде.

P.S. Если вам понравилась статья, я был бы очень благодарен, если бы вы подписались на канал