Найти в Дзене

Теория игр и альтруизм

Да, под маской альтруиста почти наверняка найдется личность с «нечистыми» намерениями, но альтруизм – это эволюционный продукт, неотделимый от реципрокности. И гораздо лучше, если добрые дела будут мотивированы личными интересами и раздутым самомнением, чем если их совсем не будет; и нет ничего плохого в том, что мы считаем себя милосердными и добрыми, желаем, чтобы нас любили, а не боялись, и хотим этой ценой купить для себя хорошую жизнь. Роберт Сапольски

Стоп-кадр из фильма "Игры разума"
Стоп-кадр из фильма "Игры разума"

Когда Роберт Триверс сформулировал идею реципрокного альтруизма, Уильям Гамильтон посоветовал ему проверить её математически с помощь «дилеммы заключенного».

С помощью дилеммы заключенного в теории игр описываются случаи, когда общие интересы сталкиваются с личной выгодой. Если вы не математик, то возможно вам интересно будет узнать, что теория игр – это передовая область математики, которая изучает механизмы принятия решений. Именно специалисты из этой области вдруг заинтересовались тем, что происходит в животном мире. Это может показаться странным, до тех пор, пока вы не узнаете, что экономика (как наука) постоянно оглядывается на биологию. Возможно, биология пребывала бы в плачевном состоянии, если бы не была так важна для понимания того, как лучше зарабатывать деньги. Так или иначе, но вопрос, что и как лучше делать в области предпринимательства решается с оглядкой на то, «как в природе» и «что естественно». Экономическая математика сегодня занимается теми же задачами, что и эволюционная теория, и оба эти направления обслуживаются теорией игр.

Дилемма заключенного получила своё название в 1950 году – это очередное название старого как мир поиска взаимопонимания в сложной ситуации. Представим, что два преступника ограбили банк, и спустя некоторое время их арестовали. У следователя недостаточно улик, чтобы доказать ограбление, но он может предъявить им обоснованное обвинение за прошлые делишки и посадить обоих на год. Однако следователь заинтересован раскрыть крупное преступление, и желая выбить признание, он каждому из подельников предлагает сдать другого – тогда предатель выйдет на свободу, а другой получит десять лет тюрьмы.

Какая стратегия будет наиболее выгодной в таком случае? Математиков интересовала не моральная сторона, а рациональная.

Давайте проследим логику заключённого. Если он сдаст подельника, а тот будет молчать, то для него это лучший вариант. Но подельник думает так же. Если молчать, а подельник расколется – страшно получить десять лет. Если предадут оба, то судья «скостит» срок обоим за сотрудничество, и они получат по 5 лет. Если молчать будут оба – через год выйдут и поделят награбленное. В их общих интересах – молчать. Это самый лучший вариант для них, как группы. Но для каждого по отдельности выгодней предать. В лучшем случае – выйти на свободу, в худшем получить 5 лет. В обоих этих случаях они избегнут худшего сценария – 10 лет. Получается, что в интересах каждого из них – предать.

Дилеммы случаются повсюду – в быту, бизнесе, политике, экономике… На примере тех же летучих мышей, дилемма выглядит следующим образом: у мыши есть два варианта – поделиться или нет. Самый выгодный – ничего не давать, но самой получать. Второй вариант – получать и отдавать. Третий – не отдавать и не получать. И последний – самый плохой – отдавать, но не получать. Как и в случае грабителей – логичнее всего ничего не давать. С этой точки зрения, мышиный альтруизм выглядит невозможным. Как же могло появиться сотрудничество?

Оказалось, что для сотрудничества необходимо два условия – повторяемость ситуации и ненулевая сумма взаимодействия.

Действительно, одиночные виды животных конкурируют и проявляют себя именно как вышеописанные заключённые. Но в случае, когда взаимодействие повторяется, тогда сотрудничество налаживается быстро – партнёры смекают, что групповые интересы выгоднее. Грубо говоря, если наши «герои» отсидят по 5 лет, то во второй раз они поймут, насколько лучше молчать вместе.

Вывод первый: для сотрудничества необходима повторяемость и достаточно сложная нервная система, позволяющая узнавать партнёров и запоминать их поведение – учитывать вклад каждого.

Второй вывод, требует чуть более пространного объяснения. В фильме «Игры разума» профессор Хелинджер, читая работу своего студента Джона Нэша, спрашивает: «Вы понимаете, что это вызов полуторавековой истории экономики?»

Что же взволновало маститого профессора? Нэш показал, что возможно равновесное и устойчивое состояние системы, состоящей из членов, преследующих собственные интересы. То есть преследование каждым участником своих личных целей не обязательно должно разрушать систему и выявлять единоличного победителя.

Равновесие по Нэшу звучит следующим образом: игрок не может увеличить выигрыш, изменив свою стратегию, если его партнёры своих стратегий не меняют.

В случае одиночной дилеммы заключённого равновесие Нэша выразится во взаимном предательстве, в случае повторяющихся дилемм с одними и теми же партнёрами – в сотрудничестве.

Еще одно определение: Равновесие возникает тогда, когда стратегия каждого игрока является оптимальной реакцией на стратегии, принятые другими игроками, и отклоняться от выбранной стратегии не выгодно никому. (Мэтт Ридли)

Такое равновесие основано на том, что называется ненулевой суммой. Этим термином в теории игр назвали то, с чем мы встречаемся каждый день. Можно сказать, что ненулевая сумма взаимодействий – это основа социальной жизни. На ней основано разделение труда, торговля, любопытство и сплетни.

В чистом виде с этим мы уже знакомились на примере тех же летучих мышей. До появления теории игр господствовало представление, что в результате дарения сумма результата – нулевая. Например, отдающий теряет порцию еды, принимающий приобретает итог: -1+1=0. Такая ситуация, на самом деле постепенно замораживает любое движение.

В действительности происходит следующее. Допустим, летучая мышь отдаёт отощавшей соседке пятую часть содержимого желудка. Для неё это почти ничего – то самое «-1», однако для принимающей это гораздо больше. Если мышь истощена, то это возможность дожить до следующей охоты, то есть одна порция для неё важнее, чем полный желудок при других обстоятельствах. Она эквивалентна, например трём (по крайней мере так мышь могла бы думать, если бы обладала логикой математика из теории игр). Получаем, что первая мышь теряет (-1), а вторая приобретает условно +3, итог -1+3=2. А если она временно нездорова или ей несколько дней не везло, то в этом случае одна порция поистине бесценна – практически это цена жизни. Когда в следующий раз эти мыши поменяются местами, тогда выигрыш бывшего благодетеля также составит 3, а суммарная выгода их взаимного обмена будет 2+2.

После проведения подобных параллелей возникает закономерный вопрос: так что же животные с таким маленьким мозгом, как летучие мыши, анализируют и просчитывают все эти варианты? Значит, у них есть понятие выгоды и надежда на то, что партнёры выручат их в трудную минуту. Очевидно, что нет. Подобные сложные концепции неизбежно отразились бы на многих чертах их общественной жизни. Следовательно, остаётся очень неудобное для моралистов предположение, что склонность к сотрудничеству в них заложена генетически. Это серьёзное заявление, и если оно справедливо, то возможно у всех общественных животных, включая нас, есть врождённая склонность к альтруистическому поведению. После таких далеко идущих предположений становится понятным, почему столь далёкие от биологии существа, как математики, заинтересовались взаимоотношениями животного мира.

Основной задачей математической проверки взаимоотношений животных было установить – возможно ли вообще такое состояние, в котором животные соперничая, тем не менее, налаживают сотрудничество и создают сообщество. Это было внове, потому что до тех пор считалось, что животные группы состоят из яростно конкурирующих особей, что в этих системах присутствует только борьба и что «побеждает сильнейший», который в процессе выживания просто уничтожает или прямолинейно подчиняет всех. Именно такой виделась картина в животном мире, и именно с такого образа строились экономические теории. Итак, математики заинтересовались – возможно ли в живой природе среди общественных организмов равновесие по Нэшу, и если возможно, то как должны вести себя участники?

Но вернёмся к истории, которая сама по себе напоминает детективный сюжет. Получив рецензию Гамильтона, Триверс издал статью. На этом история не закончилась. Гипотеза была правдоподобна, но это была лишь одна из гипотез. Прошло десять лет, и Гамильтон получил статью политолога Роберта Аксельрода с результатами турниров компьютерных программ-кооператоров, полностью и независимо подтверждающих выводы Триверса о реципрокном альтруизме.

Роберт Аксельрод был математиком и политологом, биология его совершенно не интересовала. В конце 1970-х уже появились достаточно мощные компьютеры, чтобы попытаться смоделировать всевозможные варианты взаимодействий. Аксельрод понял, что реально создать мир компьютерных программ, которые будут взаимодействовать друг с другом, и посмотреть, какая из них выйдет победителем. Он пригласил к участию всех желающих и на первый турнир отозвались 14 человек. Каждый участник придумал стратегию поведения и записал её в виде программы.

Турнир заключался в следующем – все программы должны были провзаимодействовать в парах, решая дилемму заключённого двести раз подряд. Результат оценивался следующим образом:

Отказ сотрудничать – 1 бал

Сотрудничество – 3 бала

Обман (когда одна из программ сотрудничает, а вторая нет) – 5 балов обманщику, 0 балов – простаку.

Присланные программы были разными по сложности и отражали разные стратегии. Условно говоря, восемь из них были «добрыми» – склонными к сотрудничеству, а семь – эгоистичными. К удивлению исследователей, добрые программы плотной группой и с большим отрывом обошли эгоистичные.

Люди, писавшие стратегии, стремились учесть хитрость противников и создавали сложные алгоритмы реагирования на ходы противников. Однако победила самая простая и бесхитростная из «добрых» стратегий. Победительница оказалась и самой короткой - настолько, что содержала всего лишь четыре строчки кода. Её назвали око за око.

Эта стратегия была предельно проста – начинать с сотрудничества и потом воспроизводить последний ход партнёра. Среди конкурентов были добрые программы (прощавшие предательство) хитрые, умные и эгоистичные… Но око за око оказалась наиболее жизнеспособной и простой. Она преданно сотрудничала с добрыми программами и после минимальных потерь (цена одного хода), отказывалась от сотрудничества с предательскими. Кроме того, она готова была «прощать» умные программы, если они её однажды предавали и потом исправлялись. И вся эта адаптивность умещалась всего лишь в четырёх строчках кода!

После турнира Аксельрод сформулировал четыре правила успеха в дилемме заключённого: не завидовать (то есть не стараться выиграть у противника, а стараться вместе набрать больше очков). Быть готовым сотрудничать (не отказываться от взаимопомощи заранее). Отвечать партнёру тем же (око за око). Не быть слишком сложным (кстати, самая сложная стратегия заняла последнее место).

Успешную стратегию можно сформулировать и по-другому: порядочность (не платить предательством за сотрудничество) и способность к прощению (готовность восстанавливать сотрудничество после чужого предательства). С такими правилами программа иногда проигрывает более сложным стратегиям, но в целом набирает больше очков.

Результаты турниров привели к сногсшибательному неожиданному результату: даже в мире бездушных программ к успеху ведут порядочность и доброжелательность, а не эгоизм, эксплуатация и соперничество.

Турнир стал вызовом – он ломал стереотипы. После этого Аксельрод объявил о желании провести ещё один турнир, и на него откликнулись уже 62 участника. Предварительно были обнародованы результаты первого турнира, чтобы участники могли проанализировать причины успеха предшественников. Аксельрод даже предоставил новым участникам свой анализ успешности программ-победительниц. Безусловно, во втором туре было множество умных, коварных и непорядочных программ, рассчитанных на выигрыш у око за око. И что же произошло? Око за око опять выиграла!

Она могла проигрывать отдельным программам, но в отличие от них не была «завистливой» и стабильно набирая очки – в итоге вышла в лидеры.

Спустя недолгое время Аксельрод понял, что его модель многое объясняет не только в политике, но и в биологии. Возникла необходимость в сотрудничестве с авторитетным эволюционистом. Естественно, что проще всего это было сделать в стенах Мичиганского университета, где он работал. То, что в тот момент профессором эволюционной биологии Мичиганского университета был Уильям Гамильтон, которого часто называют вторым по значению эволюционистом после Дарвина, можно смело отнести к разряду невероятных и судьбоносных совпадений.

Гамильтон почти всю свою жизнь работал в Англии, но как раз в то время, когда Аксельрод ставил свой потрясающий эксперимент, на несколько лет оказался в непосредственной близости. Значимый эксперимент и самый блестящий специалист сошлись в одной точке. Можно себе представить удивление и радость самого Гамильтона – десять лет назад, он посоветовал Триверсу проверить идею взаимного альтруизма с помощью дилеммы заключенного. Теперь же у него в руках оказались результаты компьютерного моделирования, расставлявшего все точки над i. Результатом стала совместная основополагающая статья Аксельрода и Гамильтона «Эволюция сотрудничества» 1981 года.

Третий турнир Аксельрод провёл уже под биологическими «знамёнами» – он моделировал эволюцию. Были использованы те же программы, что и во втором турнире, но очки заменили «потомками»: чем больше очков в одном круге набирала программа, тем больше её копий переходило в следующий цикл. Всего провели 1000 поколений, некоторые программы вымерли уже к двухсотому циклу. Ожидаемо первыми умирали эгоистичные стратегии. Одна из них продержалась достаточно долго и на первых этапах процветала – за счёт доверчивых и прощающих стратегий. Однако она постепенно «съела» их всех и сама не выжила в борьбе с порядочными, но недоверчивыми. Через тысячу поколений ситуация стабилизировалась и перестала меняться – в компьютерном мире остались несколько добропорядочных стратегий, которые сотрудничали с одинаковым результатом в виде «потомков».

Программа око за око всего лишь хорошо описывает некоторые примеры сотрудничества. Это упрощённая игровая имитация и не более того. Оставалось непонятным: как могло возникнуть такое поведение среди организмов конкурирующих друг с другом? Ведь погружённая в чистую среду программ-эгоистов око за око погибала – ей не с кем было сотрудничать, а первый раунд она всегда проигрывала. Как могло произойти, что одновременно появилось несколько подобных партнёров, которые получили преимущество благодаря сотрудничеству в своём узком кругу?

Кроме того, око за око порождает замкнутый круг – если партнёру всегда платить тем же, то это порождает не только бесконечный цикл взаимопомощи (что хорошо), но также и бесконечный цикл вражды (что ужасно). В игре это может произойти из-за программного сбоя – допустим, одна из сотрудничающих программ сбойнула в момент контакта с другой. Та восприняла отказ и в следующий раз отказала первой уже по-настоящему. Первая восприняла отказ и воспроизвела его. Вторая восприняла отказ …. и так бесконечно! Сотрудничающие программы будут вести себя как эгоисты, хотя такими не являются, и в результате проиграют. Знакомая ситуация?

Кстати, именно по такой схеме возникает вековая кровная месть между группами людей. Значит, должен быть механизм, останавливающий такой цикл, когда он ведёт к самоуничтожению.

Умозрительный пример: хирург из лучших побуждений, пытаясь спасти пациента, допускает врачебную ошибку. Обезумевшие от горя родные избивают и калечат его. Возмущённый родственник пострадавшего хирурга мстит в свою очередь. Начинается вражда семей. Каждая сторона испытывает искреннее возмущение и считает свои действия оправданными.

Эти вопросы создавали изрядную брешь в теории и были разрешены в итоге длительных моделирований. Австрия, 1980-е годы. Математики Карл Зигмунд и Мартин Новак потратили двенадцать лет жизни, чтобы, в конце концов, разобраться в проблеме. Решение, как это часто бывает, оказалось простым и элегантным, хотя путь к нему был далеко не таким. Чтобы выйти из самоуничтожающей зацикленности, оказалось достаточно пришить к око за око 30- процентную вероятность прощения предательства. Это работало, но возникли очередные сложности…

В итоге решение было найдено – стабильно работала и побеждала программа, которую можно описать так: «победа-повторяй, поражение-меняй». Даже если одна из них сбойнёт и другая ответит ей предательством, то через пару циклов обе встретятся в фазе «эгоистов» и разом изменят свою позицию. Эта программа будет наказывать эгоистов и простофиль-альтруистов и склоняться к взаимовыгодному сотрудничеству. Она будет после нескольких циклов прощать ошибки и постепенно вытеснять все другие программы, включая око за око.

Что ж, математически было доказано, что система, состоящая из членов, действующих в своих целях и частично конкурирующих, может быть устойчивой и даже привести к сотрудничеству конкурентов.

Возможно, вам покажется странным, что для математической проверки такого простого правила, как ты- мне, я – тебе понадобились титанические усилия лучших математических умов. Казалось бы, идея на поверхности, но между догадкой и доказательством лежит долгая полоса препятствий. И часто её либо не проходят, либо заблуждаются по поводу того, что она пройдена правильно.

Одновременно появлялись дополнительные полевые доказательства реципрокного альтруизма – было описано сотрудничество летучих мышей-вампиров, реципрокность обнаружили у приматов, дельфинов, белок… Например, мартышки верветки бурно реагируют на проигрывание звуковой записи с призывами о помощи в двух случаях: если эти призывы исходят от знакомой мартышки, которая помогала им в прошлом и если крики издаёт близкий родственник. Своей реакцией верветки демонстрируют два уже знакомых нам вида альтруизма – родственного и реципрокного.

Новые знания – очередные головоломки. Если организмы готовы вести себя по-разному, то как они определяют подходящую реакцию? Как они проверяют реакцию партнёра? Как «учитывается» ненулевая сумма? Как часто готовы прощать и «перезагружать» сотрудничество? Каковы психологические механизмы успеха и поражения? Кроме того, обнаружилось, что, несмотря на то, что для многих видов теория взаимного альтруизма полноценно описывала все случаи сотрудничества, у некоторых видов альтруизм работает по какому-то другому принципу – не реципрокному. Эти новые принципы ещё ждали своего открытия. Животные – не примитивные программы. То, что хорошо работало в компьютере с конкуренцией за единственный ресурс, где сбои редки, а условия упрощены, не обязательно сработает в живом мире, многообразие которого не поддаётся осмыслению.

Суммируя, можно сказать, что, кроме подтверждения идеи взаимного альтруизма, огромная заслуга Аксельрода в том, что он доказал: чтобы победить в гонке, не обязательно идти по головам и работать локтями, не обязательно обыгрывать и паразитировать на остальных. Эгоисты не всегда побеждают альтруистов. Всё зависит от ситуации: партнёров, частоты взаимодействий, честности... Оказывается, что на длинных дистанциях хорошие парни выходят победителями.

— Евгений Бульба. Из книги «Тень матрицы.Биология альтруизма».