Найти в Дзене
Dima Pilot

Про дилемму заключенного

23 мая 15-года погиб гениальный математик Джон Нэш в возрасте 86-ти лет – в том, в котором принято умирать самостоятельно. Убил его и супругу тупой таксист, не справившись с управлением. Сам при этом никаких повреждений не получил.

Автор: Peter Badge / Typos1 - OTRS submission by way of Jimmy Wales, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=6977799
Автор: Peter Badge / Typos1 - OTRS submission by way of Jimmy Wales, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=6977799

Массам Нэш известен благодаря фильму “A Beautiful Mind” (прокатное название “Игры разума”).  Там еще отлично выступил Рассел Кроу, но это уже другая история.

Нэш внес огромный вклад в дифференциальную геометрию и математику теории игр. За свои работы по анализу равновесия в  некооперативных играх  совершенно заслуженно выхватил нобелевку.

Теория игр, несмотря на шутливое и несерьезное название, несет огромную практическую пользу, позволяя моделировать огромное количество экономических, политических и биологических процессов.

Фундаментальная проблема теории игр описывается так называемой дилеммой заключенного. 

Формулировка проста. Имеем двух заключенных, лишенных возможности контактировать друг с другом. Они обвиняются в некотором преступлении, а наказание за него зависит от показаний, которые им предстоит дать. Возможны три варианта.  Если один заключенный дает показания против второго, а второй молчит, то первый выходит на свободу, а второй получает 10 лет тюрьмы. Если молчат оба - они получают по году тюрьмы. Если оба сдают друг друга – получают по 3 года каждый.

Если рассматривать суммарную выгоду для группы из двух человек, то очевидно, что наименьший срок  на двоих (т.е. наибольшая выгода) будет получен в случае, когда оба молчат. Наихудший вариант для группы – когда один получит 10 лет. Но для отдельного заключенного наивыгоднейшим вариантом становится тот, при котором он дает показания, а оппонент молчит.

Интереснейшим развитием данной дилеммы является повторяющаяся дилемма заключенных, описанная Р. Аксерольдом в  книге “Эволюция кооперации”.  Автор предлагает участникам делать выбор не единожды, а некоторое количество раз, при этом каждый раз они помнят результаты предыдущих игр и могут менять в зависимости от этого свое решение.  Аксерольд устроил соревнования компьютерных программ, реализующих те или иные стратегии выбора (поиграться со стратегиями можно тут, например http://www.iterated-prisoners-dilemma.net/)

Р. Докинз (“Эгоистичный ген”, “Расширенный фенотип”) описал теорию некооперативных игр применительно к поведению животных. Условно взятый пример был смоделирован программно.

Упрощенно это выглядит так.  Есть некая условная популяция млекопитающих, в которой возможно два варианта поведения каждого самца при встрече двух самцов, конкурирующих за самку. Первый вариант - самец убегает, второй - атакует. Первый вариант Докинз назвал стратегией голубя, второй – ястреба.  После чего мы назначаем некие очки, которые позволяют количественно оценить биологическую выгоду, получаемую каждым участником в трех возможных исходах. Например, если голубь встретил ястреба - это хорошо для голубя (т.к. он не получил повреждений), но еще лучше для ястреба (т.к. повысились шансы на размножение). Встреча двух ястребов невыгодна обоим, так как высок риск получить ранение, и т.д.

Учитывая эти очки, можно вычислить оптимальное соотношение представителей двух разных стратегий в популяции. Например, это будет 90% голубей и 10% ястребов. При таком соотношении выгода группы будет максимальной. Однако при  таком соотношении шанс для ястреба встретить другого ястреба достаточно невелик. И для отдельного члена группы выгоднее быть ястребом. Но с увеличением доли ястребов в группе вероятность встретить другого ястреба увеличивается, и выбирать стратегию ястреба все менее выгодно. В итоге соотношение стратегий в группе устанавливается в другой пропорции, отклонение от которой невыгодно уже для отдельных членов группы. (см. равновесие Нэша)

Соотношение это будет отличаться от вычисленного для максимальной общей выгоды. Например, 60% голубей и 40% ястребов (конкретные цифры будут отличаться в зависимости от выбранного изначально количества очков) Но именно к такому соотношению приходит неуправляемая снаружи группа. Стратегию поведения, ведущую к установлению подобного равновесия, называют эволюционно-стабильной стратегией.

Пара примеров.

Деревьям, растущим рядом, не очень выгодно быть сильно высокими, т.к. выживать сложнее - нужно больше питания и т.д. Поэтому группе деревьев было бы выгоднее иметь небольшую высоту. Но отдельно взятое дерево, возвысившись над остальными, получает преимущество, т.к. ловит больше солнечных лучей, а другие попадают в тень. Поэтому деревья увеличивают свою высоту до тех пор, пока ограничивающие факторы не станут более существенными (например, слишком высокое дерево с большей вероятностью повалится от ветра и т.п.) В итоге вся группа состоит из высоких деревьев, и добивать питательные вещества из почвы им значительно сложнее. Группа проигрывает.

Автомобильная пробка. Два ряда и обочина. Игра некооперативная  – игроки не общаются между собой (Кроме особо жестких случаев ;)) Наилучший результат для группы (т.е. минимальное среднее время преодоления пробки) будет достигнут в случае, если все машины будут ехать по проезжей части. Но имеется возможность проезда по обочине. Отдельно взятый водитель, объехавший по обочине, улучшит свой результат, избежав пробки. Но группа в целом проедет медленней. За первый водителем на обочину свернет еще один, за ним еще. Постепенно на обочине тоже образуется очередь из машин, и сворачивать на нее будет уже невыгодно. Возникнет равновесие. Суммарный результат для группы при этом будет значительно ниже.

Тоже самое происходит при попытке проехать нерегулируемый перекресток. Возникают пробки со всех сторон. Светофор, таким образом, является средством борьбы с эволюционно-стабильными стратегиями поведения.

Приматы обрели такой мощный мозг, в котором инстинкты могут проиграть в борьбе с рациональными решениями во многом потому, что это усилило их групповые шансы на выживание. Приобретенные нормы поведения (мораль, принципы, совесть и т.п.), закладывающиеся внешней средой, служат для пользы группы или некоторого количества ее членов. Отдельно взятый член группы, руководствуясь моралью, получает меньше выгоды, но группа в целом выигрывает.

Например, соответствующим образом воспитанный человек будет понимать, что ехать по обочине – “плохо”. Он останется в своем ряду, выбрав стратегию поведения ,  выгодную для группы.

Шансы на выживание тех групп приматов, которые научились в той или иной степени избегать эволюционно-стабильных стратегий, росли. А значит, возникало давление группового отбора в пользу тех физических качеств мозга, которые позволяют приобретенным поведенческим навыкам контролировать врожденные. Таким образом, мораль и нравственность людей можно рассматривать как  приобретенную в результате группового отбора способность достигать большей групповой выгоды при постоянном участии в некооперативных играх.

Эволюция привела приматов к способности противостоять эволюционно-стабильным стратегиям)

Однако важно отметить, что критерии выгоды как группы, так и отдельной особи при групповом отборе были чисто биологическими - выживание и размножение.

И сейчас задача управления людьми и достижения человечеством глобальных целей по-прежнему сводится к борьбе с эволюционно-стабильными стратегиями внутри человеческого сообщества.  Используя свойства человеческого мозга, можно закладывать в людей такие поведенческие нормы, которые позволят выигрывать группе. Собственно, социализм и был попыткой организовать нечто подобное (или же поимел данный эффект в качестве побочного) - и продемонстрировал эффективность подхода, ибо таких  мощных научно-технических рывков в столь короткие сроки человечество еще не видело.

Здесь, однако, помимо множества неявных, всплывают две очевидные проблемы. Во-первых, сами способы борьбы за власть подразумевают, что успехов в этой борьбе добивается как раз тот, кто не действует в интересах группы, а преследует только свои собственные – т.е. человек, не имеющий никаких сдерживающих моральных принципов.  Особое преимущество такой человек получит как раз в среде с высоким уровнем социальных ограничителей (набора ценностей и пр.), ориентированной на выгоду группы. Вспомним дилемму заключенного – крайне выгодно “сдать” остальных, особенно, когда остальные молчат.

Т.е. группа, приведенная большими усилиями в состояние равновесия, более выгодное, чем то, которое достигается при выборе эволюционно-стабильной стратегии предоставляет огромные возможности для того ее члена, который этой эволюционно-стабильной стратегии решит последовать.

Оказавшись наверху, понятное дело, он продолжить действовать, исходя из соображений личной выгоды, и ответ на вопрос, совпадут ли его интересы в текущий момент с интересами группы, становится почти случайным.

Таким образом, чтобы избежать скатывания в неоптимальный для группы режим выбора эволюционно-стабильной стратегии, необходимо организующее воздействие извне (формирующее правильные кооперативные нормы поведения). Но доступ к рычагам управления группой получает ее представитель, который заинтересован в личной выгоде даже больше, чем остальные, и управляющее воздействие будет корректироваться соответствующим образом.

Т.н. демократия подразумевает якобы, что правитель, желающий остаться на второй срок, будет действовать в интересах своей страны и народа. Однако имитировать успешные действия значительно проще, чем их осуществлять в реальности. Кроме того, здесь мы утыкаемся во второй, еще более глобальный вопрос.

Если в случае с пробкой или в биологических примерах критерии выгоды очевидны, то в более широких вопросах дело обстоит сложнее.

Например, что можно считать интересами группы, если группа – это целое государство или вообще человечество? Очевидно, что сюда можно смело зачислять интересы биологические, совпадающие у большинства -  все хотят бесперебойно кушать, побольше спать и т.д.  А дальше?

Люди очень разные с рождения, индивидуальная изменчивость мозга очень высока. Эту разницу усиливает различие в воспитании, т.к. даже в пределах одного государства условия формирования отдельной личности в разных семьях различаются очень сильно.

Люди отличаются друг от друга и хотят разного. Да, говоря о массе людей в целом, мы понимаем, что есть возможность очень серьезно влиять на их мысли и ценности при помощи средств пропаганды и манипуляции сознанием. То есть то, что хотят люди (за исключением первичных потребностей) тоже может устанавливаться снаружи. Но как установить критерии – те самые, к которым нужно устремлять людей, отрывая их от простой и понятной стратегии погони за личной (биологической) выгодой?

Такие критерии – глобальные для всего человечества, насколько мне известно, никто не установил.

А дилемма о заключенных ежедневно решается миллиардами людей очень просто и чаще всего одинаково. Все сдают всех.