Найти в Дзене
Блокнот математика

Об "ошибке выжившего" и формуле Байеса

Привет, друзья. Про "ошибку выжившего", наверное, все слыхали. Это хорошо известный статистический эффект, связанный со смещением (bias) при сборе статистики. Легенда гласит, что из боевых вылетов возвращались в основном самолеты с дырками от пуль в крыльях, а с дырками в брюхе прилетало мало; и встал вопрос, какую часть надо в первую очередь бронировать. Казалось бы, что крылья, ведь в них больше попаданий — но нет, бронировать надо брюхо: после попаданий в него самолеты просто редко возвращались.

https://img5.goodfon.ru/wallpaper/nbig/1/58/khellouin-halloween-noch-luna-letuchie-myshi-tuchi-kladbis-1.jpg
https://img5.goodfon.ru/wallpaper/nbig/1/58/khellouin-halloween-noch-luna-letuchie-myshi-tuchi-kladbis-1.jpg

Ну или классика про опрос в интернете, согласно которому 100% населения имеют доступ к оному.

Ну или истории успеха, в которых есть и усердный труд, и сложные решения, и помощь друзей, и всё такое, но есть и удача — но вот те, кто тоже трудился, и принимал верные решения, и кому друзья помогали, но судьба не улыбнулась — они историй неуспеха не пишут. А не пишут потому, что они и скучнее, и менее поучительны.

Ну или сообщения об авиакатастрофах, о которых нам докладывают с удовольствием, но молчат о сотнях тысяч самолетов, долетающих благополучно. В итоге иногда кажется, что катастроф слишком много по отношению к общему число взлетов. Хотя даже одна — это много, конечно.

Но то же относится и к военным сводкам, например.

С другой стороны, детективы и вообще литература показывает нам, что жить спокойно не выйдет. Обязательно что-нибудь случится. Ведь мог Эдмон Дантес жениться на Мерседес и уйти в рейс, и дело с концом. Но тогда не было бы графа Монте-Кристо...

Концентрированно ошибка выжившего звучит так: "все, сделавшие заявление после игры в русскую рулетку, заявляют, что она совершенно безопасна".

Ну или сисадмином бывают всегда недовольны: либо ничего не работает, либо он сидит и ничего не делает.

Давайте посмотрим на математическую сторону дела. На примере классического этюда о машинах. Итак, в городе Ъ есть миллион машин, из них всего одна Ламборгини. Случилось ДТП и виновник скрылся. Единственный свидетель утверждает, что машина была Ламборгини.

Какова вероятность, что это была Ламборгини?

Ламборгини. Именно Г там произносится. https://auto.ironhorse.ru/wp-content/uploads/2018/05/huracan-coupe.jpg
Ламборгини. Именно Г там произносится. https://auto.ironhorse.ru/wp-content/uploads/2018/05/huracan-coupe.jpg

Ответ зависит от надежности свидетеля. Если он не ошибается вообще никогда, то 100%. Если Ламборгини не было в городе, то вероятность равна нулю — свидетель точно ошибся. Если свидетель никогда не ошибается, но Ламборгини точно не было в городе, то возникает противоречие, которое логически неразрешимо. Что-то одно неверно: либо свидетель всё-таки может ошибаться, либо Ламборгини была в городе, либо она не одна.

Если свидетель ошибается всегда, то тоже вероятность тоже нуль.

А если свидетель ошибается в половине случаев? Тогда что? Проверьте свою интуицию!

Но давайте представим, что проведен тест, и тест установил, что свидетель ошибается в половине случаев в среднем. Дают ли что-то его слова?

Нам нужна условная вероятность, что машина — Ламборгини, при условии, что свидетель это показал.

Вычислим вероятность того, что свидетель искренне покажет, что машина — Ламборгини. Это событие имеет место в двух случаях: если это и была Ламборгини И свидетель не ошибся, ИЛИ если это была НЕ Ламборгини И свидетель ошибся. Поскольку показания свидетеля не зависят от прошлого, можно использовать формулы сложения и умножения, и получить формулу полной вероятности: половина от одной миллионной плюс половина от 0.999999. Это 1/2.

Теперь, свидетель показал, что это была Ламборгини, то есть все события, которые к этому не приводят, отпали. Все остальные стали более вероятны в свете поступившей информации, и надо их нормировать: вся совокупность событий, приводящих к данным показаниям, имеет вероятность 1. Значит, на былую, априорную вероятность надо поделить. А она равна 1/2.

Вероятность, что это была Ламборгини И свидетель это и показал, равна произведению вероятностей одна миллионная и 1/2. Поделив на 1/2, получим ... одну миллионную.

То есть показания свидетеля вообще ничего не дали! Если он в половине случаев ошибается, то можно было монетку подбросить, она столь же информативна.

Кстати, имеет смысл различать ошибки двух родов. Ведь одно дело — не опознать Ламборгини, а другое — принять за неё какой-то другой автомобиль.

Давайте проведем расчет в случае, если свидетель ошибается всего в 1% случаев, но Ламборгини опознает безошибочно. Полная вероятность события "показал, что Ламборгини" равна
0.000001*1 + 0.999999*0.01 = 0.01.

На нее мы будем нормировать, а нормировать мы будем произведение вероятностей, что это была Ламборгини (0.000001) и вероятность, что он не ошибся (1.00): это будет, после нормировки, 0.000099 примерно. В процентах 0.01%. Не очень большая вероятность, прямо скажем.

Если в городе 20% Ламборгини, а свидетель на 90% надежен (10% ошибок любого рода), то картина иная. Полная вероятность данных показания равна 0.2*0.9+0.8*0.1=0.26. На нее надо поделить вероятность, что машина была Ламборгини И свидетель не ошибся, то есть 0.2*0.9, что дает 0.69. Чуть больше двух третей, и это при 90%-ной надежности свидетеля!

Если же свидетель всегда точно опознает Ламборгини, имеем: полная вероятность дать показания про Ламборгини равна

0.2*1+0.8*0.1=0.28,

а нормировать на нее надо 0.2, что дает 5/7=0.714. То есть свидетель безошибочно опознает Ламборгини И показал, что это была она, но верить ему можно только процентов на 70! Потому что это могла быть не она, а он ошибся.

А теперь разбавьте всё это учётом того, что свидетель может соврать, что он очень хотел, чтобы это была Ламборгини, и прочей психологией.

Вообще же формула Байеса позволяет переоценивать вероятности гипотез по наблюдаемым фактам. Скажем, именно так мы оценивали надежность самого свидетеля. Его показания проверяются, и если он сказал, что Ламборгини И это оказалось так, то вероятность его ошибки снижается: надежность его как свидетеля растет.

Попробуйте теперь решить такую задачку. Пожарная сигнализация всегда срабатывает при пожаре, но может поднять ложную тревогу с вероятностью одна сотая. Вероятность пожара одна тысячная. Заорала сирена; какова вероятность, что это не ложная тревога? Больше или меньше 10%?

Научно-популярные каналы на Дзене: путеводитель
Новости популярной науки12 марта 2022