Однажды в штиль Сильвер предложил товарищам по команде развлечься игрой: Сильвер прячет в кулаке монету --- либо один дублон, либо один эскудо (полдублона). Противник угадывает. Если угадает, монета его. Если не угадает, платит 15 сентимо проигрыша (полтора экскудо).
Игра выглядела честной: шансы угадать равны, так что в среднем выходит полтора эскудо как раз при победе, а при проигрыше --- ровно полтора. Но так ли это?
Не так. Не учтено, что Сильвер не равновероятно выбирает монету, а может следовать какому-то распределению. Он вынужден выбирать монету случайно (иначе противник разгадает шаблон и будет выигрывать), но вероятность выбора дублона равна p (не обязательно 0.5).
Противник тоже может выбирать вероятность q назвать дублон. Он тоже вынужден делать выбор случайно, но вероятность не обязательно 0.5.
Посмотрим на ситуацию с точки зрения Сильвера. Его выигрыш (в эскудо) является случайной величиной с четырьмя (тремя, если сгруппировать) исходами:
-2 с вер. pq,
1.5 с вер. p(1-q) + (1-p)q = p + q - 2pq,
-1 с вер. (1-p)(1-q) = 1 - p - q + pq.
Матожидание равно
E = -2pq + 1.5(p+q-2pq) - (pq-p-q+1) = -6pq + 2.5p + 2.5q - 1.
На q Сильвер повлиять не может --- он выбирает p. Поэтому сгруппируем относительно p:
E = (2.5 - 6q)p + 2.5q - 1.
Теперь мы видим, что средний выигрыш Сильвера может быть сделан положительным: если 2.5-6q > 0, Сильвер будет всегда брать дублон (p=1), а если 2.5-6q < 0, то всегда эскудо (p=0). Первый случай означает, что противник слишком редко называет дублон, а второй --- что слишком часто.
Получается, что разумный соперник обеспечит 2.5-6q=0, то есть q=5/12. Перегруппировка с целью выделить q покажет, что и Сильвер будет действовать так же: это видно и из соображений симметрии. Поэтому p=q=5/12. Оба игрока выбирают дублон случайно и немного реже, чем в половине случаев.
При этом матожидание равно 1/24 эскудо --- положительно. Игра в пользу Сильвера! Кто бы сомневался.
Отметим пару моментов. Если один из игроков следует оптимальной стратегии, то, в среднем, от действий другого ничего не зависит. Но если этот другой нарушает стратегию, например, выбирает дублон с вероятностью 0.5, то первый может выиграть больше, воспользовавшись ошибкой противника. А может выиграть те же 1/24 в среднем, следуя оптимальной стратегии и вообще не следя за действиями противника.
Второе. Самая хитрость в игре по стратегии --- это генерировать случайные числа от 1 до 12 с равными вероятностями. Важно, чтобы противник не мог определить систему.
Это пример антагонистической матричной игры, решаемой в смешанных стратегиях.