Найти тему
Блокнот математика

Ошибки при оценке вероятностей

Интуиция плохо натренирована на оценку вероятностей, особенно --- маленьких. Оценка больших вероятностей связана с оценками малых ("почти наверняка А" --- это "почти точно не 'не А'"), а также сложно сравнивать близкие вероятности.

Примером последнего является бриджевая задача: как правильно разыграть 11 карт в масти на двоих, если не хватает короля и мелкой. Есть два плана, но ни один не дает 100% на успех. У одного шанс 50%, у другого 52%, но это, мягко говоря, не очевидно.

 Резать или валить? Играть двойкой к тузу или даме, надеясь что король слева? Шансы 50%. Или играть тузом, надеясь, что король "голый"? Шансы 52%.
Резать или валить? Играть двойкой к тузу или даме, надеясь что король слева? Шансы 50%. Или играть тузом, надеясь, что король "голый"? Шансы 52%.

То же верно при прогнозе. Прогнозируя будущее, нам нужно правильно оценить вероятности возможных событий. Это сложно, по понятным причинам. Однако "задним числом" маловероятные исходы выкидываются и все становится очень ясно. Например, если человек играет в казино, то с большой вероятностью он проиграется, но когда, как, как быстро --- сказать очень сложно. Зато, если он пришел разоренный, каждый скажет "это было предсказуемо!"

Отчасти проблема связана с самим определением вероятности. Вот вычислили мы вероятность, скажем, что десять монет упадут гербом, она чуть меньше 0.001 --- и что это означает? Это НЕ означает, что из тысячи попыток мы точно увидим такое событие. Это означает лишь, что если мы будем бросать 10 монет снова и снова, и считать попытки, и запоминать, сколько раз мы событие зарегистрировали... то отношение числа событий к числу попыток будет все ближе к 0.001 (точнее, к 1/1024).

Вероятность увидеть событие с вероятностью p за n=1/p попыток хотя бы один раз выражается формулой 1-(1-p)^n~1-1/e~0.63.

То есть нужно не просто много раз пробовать, а много раз наблюдать маловероятное событие, чтобы оценить его вероятность статистически. Скажем, вероятность попасть в центр мишени НЕ оценивается величиной 1/n, где n --- число бросков до попадания, включительно.

Еще проблема связана с неустойчивостью выводов к погрешностям исходных данных. Так вероятности 0.001 и 1/1024 обе малы и интуиция справедливо считает, что оба события маловероятны. Однако вероятность увидеть событие за 1000 попыток равна, соответственно, 0.6323 и 0.6235. Разница в один процент уже заметна. Так и ситуации "выиграл" или "проиграл" можно перепутать. Например, парадокс де Мере.

При четырех бросках кубика вероятность хотя бы раз увидеть шестерку выше 0.5; однако при 24 бросках пары кубиков вероятность увидеть две шестерки одновременно меньше 0.5.

Еще пример с двумя бумажками. В мешке три бумажки: на одной с двух сторон черная метка, на другой обе стороны чистые, на третьей с одной стороны черная метка. Сильвер вытягивает наугад бумажку и кладет ее на стол. Черной метки не видно. Какова вероятность, что она с другой стороны?

Рассуждение "0.5, потому что бумажек с чистой стороной две, Сильвер вытащил одну равновероятно" --- неправильное. Потому что в мешке лежит шесть сторон, причем две из них точно остались в мешке. Сильвер мог выложить на стол две чистые стороны чистой бумажки или одну сторону бумажки с одной черной меткой. Три шанса. Из них один дает черную метку. Так что вероятность 1/3. Если ваша интуиция здесь не ошиблась, то либо вы подготовлены, либо у вас хорошая интуиция.

Собственно, почти все мои заметки серии про Сильвера --- примеры на эту тему!

Еще вспомним ошибку выжившего --- если на Тортугу приходят корабли с дырками в парусах, но редко приходят с дырками в борту --- то это не значит, что проблема в парусах. Это значит, что проблема в бортах.

Да, статистика показывает, что по парусам попадают часто, а по бортам редко; но это у тех, кто вернулся. А статистики по тем, кто не вернулся, у нас обычно мало.

Вот еще пример. Пусть известно, что Хендс --- пират, убийца, богохульник и насильник. Что более вероятно: "У Хендса есть любимая жена в Бристоле" или "У Хендса есть любимая жена в Бристоле, которая бережет присланные мужем награбленные кровавые дублоны и сорванные с пленных женщин украшения"? Второе событие немного менее вероятно --- понятно, почему?

Ошибка прокурора --- еще один пример. Прокурор заявляет, что вероятность невиновному оставить отпечатки пальцев на месте преступления очень мала, а раз таковые отпечатки обнаружены, то подозреваемый, вероятно, виновен. Видите ошибку?

Нам нужна вероятность невиновности при условии, что на месте преступления есть его отпечатки, а не вероятность оставить отпечатки при условии невиновности. Проблема видна лучше на таком примере: большинство пиратов --- мужчины, то есть вероятность, что наугад выбранный пират --- мужчина, очень высока. Но вероятность, что наугад выбранный мужчина --- пират, все-таки, существенно ниже.

Если на месте преступления 3 отпечатка, а виновный один, то вероятность, что данный подозреваемый невиновен при условии, что его отпечатки налицо, 2/3 --- довольно много. А вот вероятность, что какой-то конкретный невиновный (а их в городе десятки тысяч) оставил отпечатки на месте преступления --- очень мала, тут прокурор прав.

Вот еще пример. Пусть у губернатора есть алхимик, который разработал зелье, позволяющее определять фальшивые монеты с вероятностью 99% --- точнее, оно с вероятностью 99% распознает хорошую монету как хорошую и с вероятностью 99% распознает фальшивую как фальшивую. Хорошее средство, как считаете?

Губернатор считает, что да. Он доверяет зелью и казнит всякого, кто улучен в платеже фальшивой монетой.

Зелье для проверки монет. Надежность 99%. Виселица на фоне. Как считаете, хорошее зелье?
Зелье для проверки монет. Надежность 99%. Виселица на фоне. Как считаете, хорошее зелье?

Однако фальшивых монет, предположим, всего одна десятая процента: одна из тысячи. В среднем, из тысячи платежей один фальшивый, и он чаще всего разоблачается. Из тысячи платежей, однако, в среднем десять ошибочно разоблачаются как фальшивые. Таким образом, если в неделю осуществляется около тысячи платежей, то в неделю в среднем вешают одиннадцать человек --- из них десять невиновны.

В заметке использован материал из книги D. Hand. Improbability Principle.

Путеводитель по каналу