— Корней, представь, что тебе год назад показали такую статистику запросов и спросили: «Как ты думаешь, что произойдет в следующем апреле?» Ты бы что ответил?
— Ну не угадал бы я, не угадал. Да и ты, Пантелей, тоже бы не угадал, и никто не бы не угадал. Сейчас-то все объяснилось: и зум, и печенеги, и даже имбирь. Только про глаза непонятно. Разве что это были запросы типа «Мои глаза, что там с ценами на имбирь у печенегов»
— С глазами — это типичная ловушка Байеса, прямо в нее ты и угодил. — И Пантелей заулыбался ехидно.
— А что это, ловушка Байеса? Формулу Байеса знаю, а ловушку Байеса — нет.
По правде говоря, Корней и формулу Байеса тоже позабыл. Он возвел глаза к потолку, взморщил лоб и взгляд его обессмыслился. Именно так всегда Корней и вспоминал формулы.
— Ловушка Байеса — это про вероятности причин и следствий. Вот представь, вчера негодяй Еремей забрался в погреб, стащил оттуда 23 банки вишневого варенья и все съел — это причина. А следствие такое: сегодня негодяй Еремей мается животом. Как ты думаешь, велика ли вероятность этого следствия у такой причины?
— Велика ли? Конечно велика, если еще учесть, что варенье было вишневым, да к тому же с косточками. Мы же не знаем, с косточками он вишни ел, или .... — Корней возвел глаза к потолку, расплылся в улыбке, а взгляд его обессмыслился. Именно так всегда Корней мечтал о вкусненьком.
— Корней, я не об этом. Давай теперь перевернем ситуацию с ног на голову: сегодня у негодяя Еремея болит живот. Велика ли вероятность того, что болит он именно по причине обжорства вишневым вареньем?
— А нет, невелика. Еремею только дай волю — он какое хочешь обжорство устроит, и не обязательно вишневым вареньем. Печенье еще подойдет, или мармелад. Шоколад там, пирожки,… — мечтательно перечислял Корней.
Корней возвел глаза к потолку и приготовился мечтать, и Пантелей поскорее вывел его из этого состояния:
— Ну, я смотрю, тут у тебя большой жизненный опыт. Ты понимаешь, что вероятность следствия при заданной причине может быть большой, а вероятность той же причины при том же заданном следствии — маленькой. Но там, где жизненный опыт жидковат, эти вероятности частенько путают; это и называется ловушкой Байеса. Ты когда графики рассматривал, уже знал причину — эпидемия коронавируса; и знал, что эта причина приводит к следствию «много таких-то запросов» (зум, имбирь, печенеги). И тут — ап! Твой байесовский мозг поменял местами причину и следствие. Ты посмотрел на следствие «участился запрос "глаза"» и решил, что для него велика вероятность той же причины «эпидемия». Это и есть байесовская ловушка мышления.
Ловушка Байеса — термин необщепринятый, но мне понравился. Звучит красиво, хотя Байес ни о каких ловушках ничего не рассказывал.
***
Полвека назад ловушку Байеса обнаружили среди врачей: они неправильно толковали результаты анализов.
Некоторые лабораторные исследования не гарантируют 100%-й результат: иногда результаты тестов показывают истинное положение вещей только с некоторой вероятностью. Скажем, тест на наличие заболевания может давать
1) верноположительный результат (тест обнаруживает болезнь у больного человека)
2) верноотрицательный результат (тест не обнаруживает болезнь у здорового человека)
3) ложноположительный результат (тест обнаруживает болезнь у здорового человека)
4) ложноотрицательный результат (тест не обнаруживает болезнь у больного человека)
Тесты разрабатывают так, чтобы снизить вероятность 3 и 4 исходов, ведь они вводят нас в заблуждение. Снижать одновременно вероятности их обоих трудно. Если тест очень чувствительный (срабатывает при малейших признаках болезни), то снижается вероятность ложноотрицательного результата, но повышается вероятность ложноположительного. И наоборот. Стоимость ошибки при ложноотрицательном результате (пропустили признак тяжелой болезни на раннем этапе) велика — тяжелое развитие болезни.
Стоимость ошибки при ложноположительном результате (сказали здоровому человеку, что он болен) все-таки ниже — это потеря нервов, времени и денег. Поэтому при разработке тестов снижают еще и вероятность ложноотрицательного результата за счет небольшого повышения вероятности ложноположительного.
10 больных, это 1% от обследованных, обозначены яркими клетками. У 8 из них тест выявил болезнь (ярко-оранжевые клетки), а 2 пропустил (ярко-синие клетки, ложноотрицательный результат). Бледные клетки — это здоровые люди (1014 человек), у 10% (101) тест выявил болезнь (бледно-оранжевые клетки, ложноположительный результат), а у остальных (913) не выявил.
Эта картинка показывает, что совсем не похожи вероятности двух таких ситуаций:
А: Если человек болен, то результат теста положительный.
В: Если результат теста положительный, то человек болен.
И правда, вероятность А — это 8/10 = 0,8 — доля ярко-оранжевых клеток среди всех ярких,
а вероятность В — это 8/(8+101) = 0,07, то есть доля ярко-оранжевых клеток среди всех оранжевых.
Такой же результат можно было бы получить и по формуле Байеса, поэтому ловушку назвали тем же именем.