Найти тему

Ловушка Байеса и статистика запросов на имбирь с печенегами

Статистика запросов за 12 месяцев
Статистика запросов за 12 месяцев

— Корней, представь, что тебе год назад показали такую статистику запросов и спросили: «Как ты думаешь, что произойдет в следующем апреле?» Ты бы что ответил?

— Ну не угадал бы я, не угадал. Да и ты, Пантелей, тоже бы не угадал, и никто не бы не угадал. Сейчас-то все объяснилось: и зум, и печенеги, и даже имбирь. Только про глаза непонятно. Разве что это были запросы типа «Мои глаза, что там с ценами на имбирь у печенегов»

— С глазами — это типичная ловушка Байеса, прямо в нее ты и угодил. — И Пантелей заулыбался ехидно.

— А что это, ловушка Байеса? Формулу Байеса знаю, а ловушку Байеса — нет.

По правде говоря, Корней и формулу Байеса тоже позабыл. Он возвел глаза к потолку, взморщил лоб и взгляд его обессмыслился. Именно так всегда Корней и вспоминал формулы.

— Ловушка Байеса — это про вероятности причин и следствий. Вот представь, вчера негодяй Еремей забрался в погреб, стащил оттуда 23 банки вишневого варенья и все съел — это причина. А следствие такое: сегодня негодяй Еремей мается животом. Как ты думаешь, велика ли вероятность этого следствия у такой причины?

-2

— Велика ли? Конечно велика, если еще учесть, что варенье было вишневым, да к тому же с косточками. Мы же не знаем, с косточками он вишни ел, или .... — Корней возвел глаза к потолку, расплылся в улыбке, а взгляд его обессмыслился. Именно так всегда Корней мечтал о вкусненьком.

— Корней, я не об этом. Давай теперь перевернем ситуацию с ног на голову: сегодня у негодяя Еремея болит живот. Велика ли вероятность того, что болит он именно по причине обжорства вишневым вареньем?

— А нет, невелика. Еремею только дай волю — он какое хочешь обжорство устроит, и не обязательно вишневым вареньем. Печенье еще подойдет, или мармелад. Шоколад там, пирожки,… — мечтательно перечислял Корней.

Корней возвел глаза к потолку и приготовился мечтать, и Пантелей поскорее вывел его из этого состояния:

— Ну, я смотрю, тут у тебя большой жизненный опыт. Ты понимаешь, что вероятность следствия при заданной причине может быть большой, а вероятность той же причины при том же заданном следствии — маленькой. Но там, где жизненный опыт жидковат, эти вероятности частенько путают; это и называется ловушкой Байеса. Ты когда графики рассматривал, уже знал причину — эпидемия коронавируса; и знал, что эта причина приводит к следствию «много таких-то запросов» (зум, имбирь, печенеги). И тут — ап! Твой байесовский мозг поменял местами причину и следствие. Ты посмотрел на следствие «участился запрос "глаза"» и решил, что для него велика вероятность той же причины «эпидемия». Это и есть байесовская ловушка мышления.

Ловушка Байеса — термин необщепринятый, но мне понравился. Звучит красиво, хотя Байес ни о каких ловушках ничего не рассказывал.

***

Полвека назад ловушку Байеса обнаружили среди врачей: они неправильно толковали результаты анализов.

Некоторые лабораторные исследования не гарантируют 100%-й результат: иногда результаты тестов показывают истинное положение вещей только с некоторой вероятностью. Скажем, тест на наличие заболевания может давать

1) верноположительный результат (тест обнаруживает болезнь у больного человека)

2) верноотрицательный результат (тест не обнаруживает болезнь у здорового человека)

3) ложноположительный результат (тест обнаруживает болезнь у здорового человека)

4) ложноотрицательный результат (тест не обнаруживает болезнь у больного человека)

Тесты разрабатывают так, чтобы снизить вероятность 3 и 4 исходов, ведь они вводят нас в заблуждение. Снижать одновременно вероятности их обоих трудно. Если тест очень чувствительный (срабатывает при малейших признаках болезни), то снижается вероятность ложноотрицательного результата, но повышается вероятность ложноположительного. И наоборот. Стоимость ошибки при ложноотрицательном результате (пропустили признак тяжелой болезни на раннем этапе) велика — тяжелое развитие болезни.

Стоимость ошибки при ложноположительном результате (сказали здоровому человеку, что он болен) все-таки ниже — это потеря нервов, времени и денег. Поэтому при разработке тестов снижают еще и вероятность ложноотрицательного результата за счет небольшого повышения вероятности ложноположительного.

Результаты обследования 1024 человек на наличие редкой болезни выглядят примерно так, как на картинке.
Результаты обследования 1024 человек на наличие редкой болезни выглядят примерно так, как на картинке.

10 больных, это 1% от обследованных, обозначены яркими клетками. У 8 из них тест выявил болезнь (ярко-оранжевые клетки), а 2 пропустил (ярко-синие клетки, ложноотрицательный результат). Бледные клетки — это здоровые люди (1014 человек), у 10% (101) тест выявил болезнь (бледно-оранжевые клетки, ложноположительный результат), а у остальных (913) не выявил.

Эта картинка показывает, что совсем не похожи вероятности двух таких ситуаций:

А: Если человек болен, то результат теста положительный.

В: Если результат теста положительный, то человек болен.

И правда, вероятность А — это 8/10 = 0,8 — доля ярко-оранжевых клеток среди всех ярких,

а вероятность В — это 8/(8+101) = 0,07, то есть доля ярко-оранжевых клеток среди всех оранжевых.

Такой же результат можно было бы получить и по формуле Байеса, поэтому ловушку назвали тем же именем.