Добавить в корзинуПозвонить
Найти в Дзене

Уроки теории игр: дилемма заключённого

Представьте себе двух преступников, задержанных по подозрению в совместном преступлении. У следствия нет прямых улик, но есть возможность сыграть на их эгоизме. Их разводят по разным камерам и предлагают каждому одну и ту же сделку: если один даст показания против другого, а второй будет молчать, то первый выйдет на свободу, а второй получит максимальный срок. Если оба будут молчать — отделаются небольшим сроком. Если оба предадут друг друга — получат срок, но не максимальный. Каждый заключённый знает, что его решение повлияет на судьбу другого, но не может с ним посоветоваться. Что выберет рациональный человек? Казалось бы, ответ очевиден: лучше всего обоим молчать. Но классическая теория игр предсказывает прямо противоположное — оба предадут. И это не умозрительная абстракция, а модель, которая описывает тысячи реальных ситуаций. Как получается, что рациональный выбор каждого по отдельности приводит к иррациональному результату для всех? И почему в повторяющихся взаимодействиях та же
Оглавление

Представьте себе двух преступников, задержанных по подозрению в совместном преступлении. У следствия нет прямых улик, но есть возможность сыграть на их эгоизме. Их разводят по разным камерам и предлагают каждому одну и ту же сделку: если один даст показания против другого, а второй будет молчать, то первый выйдет на свободу, а второй получит максимальный срок. Если оба будут молчать — отделаются небольшим сроком. Если оба предадут друг друга — получат срок, но не максимальный. Каждый заключённый знает, что его решение повлияет на судьбу другого, но не может с ним посоветоваться. Что выберет рациональный человек?

Казалось бы, ответ очевиден: лучше всего обоим молчать. Но классическая теория игр предсказывает прямо противоположное — оба предадут. И это не умозрительная абстракция, а модель, которая описывает тысячи реальных ситуаций. Как получается, что рациональный выбор каждого по отдельности приводит к иррациональному результату для всех? И почему в повторяющихся взаимодействиях та же самая дилемма приводит к противоположному исходу?

Почему предавать всегда выгоднее

В 1950 году американские математики Мерил Флад и Мелвин Дрешер сформулировали суть дилеммы заключённого, а название ей дал математик Альберт Такер во время лекции о работе своего аспиранта Джона Нэша. С тех пор эта модель стала не просто академическим упражнением, но и мощным инструментом для понимания человеческого поведения в конфликтных ситуациях.

Вернёмся к нашим заключённым. Допустим, срок за совместное преступление — 10 лет, за более лёгкую статью — полгода, а если оба предают — по 2 года. Теперь посмотрим на ситуацию с точки зрения каждого из них.

Заключённый А рассуждает так: «Если мой подельник промолчит, мне выгоднее предать — тогда я выйду на свободу. Если же он меня предаст, мне тоже выгоднее предать — тогда я получу 2 года вместо 10». Стратегия «предать» оказывается доминирующей: что бы ни сделал другой, мне выгоднее обмануть. То же самое думает и заключённый Б. В итоге оба выбирают предательство и получают по 2 года.

Парадокс в том, что совместное молчание дало бы им обоим гораздо лучший результат — всего по полгода. Но каждый, действуя рационально, приходит к худшему для обоих исходу. В теории игр эта ситуация описывается так: равновесие по Нэшу (предательство) не является Парето-оптимальным (сотрудничеством). Простыми словами: каждый делает то, что выгодно ему одному, и в итоге все оказываются в проигрыше.

Как устроена дилемма на самом деле

Чтобы понять механизм дилеммы, полезно взглянуть на неё в обобщённом виде. Исследователи обозначают четыре возможных исхода:

  • Если оба сотрудничают, каждый получает «награду за сотрудничество» — условные R баллов.
  • Если оба предают — «наказание за взаимное предательство» — P баллов.
  • Если один предаёт, а другой сотрудничает, предатель получает «искушение» — T баллов, а жертва — «проигрыш» — S баллов.

Для классической дилеммы заключённого выполняется строгое неравенство: T > R > P > S. То есть «искушение» предать сотрудничающего партнёра даёт максимальный выигрыш, взаимное сотрудничество приносит меньше, но больше взаимного предательства, а хуже всего — быть обманутым, доверившись.

Именно это соотношение и создаёт ловушку: каким бы ни был выбор другого, предательство сулит лично мне больший выигрыш. Так возникает конфликт между индивидуальной и коллективной рациональностью — фундаментальное противоречие, лежащее в основе множества социальных проблем.

-2

Когда сотрудничество становится выгодным

Но если дилемма заключённого выглядит столь безнадёжно, как объяснить тот факт, что люди в реальной жизни часто сотрудничают? Дело в том, что классическая модель описывает одноразовое взаимодействие. В реальности же мы встречаемся с одними и теми же людьми многократно — и это меняет всё.

В 1980 году политолог Роберт Аксельрод решил провести масштабный эксперимент. Он пригласил специалистов по теории игр со всего мира и предложил им написать компьютерные стратегии для «повторяющейся дилеммы заключённого». Программы соревновались друг с другом в тысячах раундов. Результат оказался неожиданным.

Победила простейшая из всех стратегий, которая называлась «Око за око» (Tit for Tat) и была написана известным математиком и психологом Анатолием Рапопортом. Код стратегии занимал всего несколько строк: на первом ходу сотрудничай, а затем повторяй последний ход оппонента. Эта стратегия была удивительно эффективна, и Аксельрод выделил четыре её ключевых свойства, которые позже назвал «условиями успеха»:

  • Никогда не предавай первым. Иначе у тебя нет шанса войти в зону взаимного сотрудничества.
  • Если партнёр предал, ответь тем же. Иначе тебя будут эксплуатировать.
  • Если партнёр после предательства вернулся к сотрудничеству, восстанови кооперацию как можно скорее.
  • Твоя стратегия должна быть ясной для оппонента, чтобы он мог её предсказывать и доверять тебе.
Вывод Аксельрода звучал почти утопично: эгоистичные индивиды, действуя в своих интересах в долгосрочной перспективе, будут стремиться быть добрыми, прощающими и независтливыми . Иными словами, сотрудничество эволюционно стабильно — если у нас есть будущее, в котором мы можем отомстить за предательство и помириться.

Когда наказание вредит

Однако не всё так однозначно. Дальнейшие исследования показали, что стратегия «Око за око» хотя и эффективна, но может привести к эскалации конфликта. Если два игрока, придерживающиеся этой стратегии, однажды ошибочно предадут друг друга, они могут войти в бесконечный цикл взаимного наказания.Поэтому в реальной жизни мы часто наблюдаем затяжные конфликты, из которых никто не может выйти.

Более того, способность наказывать предателей не всегда благо. В 2008 году группа исследователей под руководством Анны Дребер из Гарвардского университета провела эксперимент, который показал неожиданную вещь: те, кто наказывал предателей, сами оказывались в проигрыше. Игроки, которые никогда не прибегали к наказанию, а просто отвечали «око за око», зарабатывали больше всех.

«Победители не наказывают, — резюмировали авторы исследования, — а наказывающие проигрывают и погибают».

Это важный урок: месть и наказание, хотя и кажутся справедливыми, часто вредят самому мстителю. Умение прощать и возвращаться к сотрудничеству — не слабость, а стратегическое преимущество.

Но есть и другой нюанс. Если игроки знают, что игра будет повторяться ровно N раз (известное всем число), то сотрудничество рушится, ведь на последнем ходу выгодно предать — соперник не успеет отомстить. А раз на последнем ходу все предадут, то и на предпоследнем тоже можно предать… и так до самого первого хода. Чтобы сотрудничество сохранялось, будущее должно быть неопределённым — никто не должен знать, когда игра закончится.

-3

Дилемму заключённого можно назвать своего рода зеркалом, где отражаются наши повседневные решения: доверять или проверять, сотрудничать или конкурировать, прощать или мстить. Она объясняет, почему умные люди могут совершать, казалось бы, нерациональные поступки — и почему в долгосрочной перспективе эгоизм парадоксальным образом толкает нас к доброте.

У этой дилеммы нет одного «правильного» решения, но есть важный вывод: в мире, где люди взаимодействуют многократно, сотрудничество становится эволюционно выгодным.

На этом всё. Спасибо!

***

Меня зовут Анна, я репетитор по математике с 20-летним стажем. Помогаю с подготовкой к ЕГЭ, ОГЭ, помогаю с прохождением ДВИ.

Занимаюсь также и со взрослыми учениками — если хотите освежить в памяти математические знания, если математика вам нужна для работы/учёбы, или если вы хотите заняться математикой для себя, то обращайтесь ко мне в Максе!