Найти в Дзене
Physics.Math.Code

Теорема Байеса

Оглавление

На первый взгляд, сформулированная преподобным Томасом Байесом теорема его имени, опубликованная уже после его смерти, в 1763 г. — достаточно простая формула. Она вычисляет , насколько вероятность того, что некоторое событие произойдет, зависит от появления новой информации. Более строгая формулировка теоремы гласит, что формула Байеса позволяет определить вероятность какого-либо события при условии, что произошло другое статистически взаимосвязанное с ним событие. Однако то, что эта теорем рассказывает при этом об окружающем мире, всегда неожиданно, а иногда очень спорно.

Предположим, что разразилась эпидемия гриппа, и примерно 1 из 100 человек болен. Следовательно, вероятность того, что больны именно вы, составляет 1%. Проснувшись наутро с головной болью, вы обнаруживаете на медицинском сайте информацию о том, что 90% заболевших испытывают головную боль. Значит, вам, похоже, не повезло, и вы подцепили вирус.
Однако накануне вечером вы были на вечеринке — стало быть, вероятность того, что вы и так проснулись бы с головной болью, составляет примерно 10%, что не очень вероятно, но определенно возможно. Так какова же точная вероятность того, что вы заболели с учетом головной боли? Всё еще 90% ? Или 80%, учитывая возможное похмелье?

Пусть есть события:
А: «Человек болен»
В: «Болит голова»
Тогда событие A|B будет значить что «человек болен, если болит голова»
Тогда событие B|A будет значить что «болит голова, если человек болен»
По формул Байеса имеем: P(A|B) * P(B) = P(B|A) * P(A)

Вероятность того, что человек болен, если болит голова:
P(A|B) = [P(B|A) * P(A)] / P(B)

P(B|A) = 0.9 + 0.1*0.1 = 0.91 — вероятность того, что «болит голова, если человек болен» складывается из двух вероятностей:
1) человек болен и он попал в 90% случаев когда болит голова
2) человек болен, но голова не болит из-за болезни т.е. человек попал в 10%, а болит из-за дискотеки 0.1*0.1

P(A) = 0.01 — вероятность того, что «Человек болен» (из условия задачи)

P(B) = 0.01*(0.9 + 0.1*0.1) + (1 — 0.01)*0.1 = 0.1081 — вероятность того, что болит голова складывается из двух вероятностей. Так как голова может болеть в двух случаях:
1) человек болен, и он попал в 90 % случаев когда болит голова 0.01*0.9 или человек болен, попал в 10 %, но голова всё равно болит из-за дискотеки 0.01*0.1*0.1
2) человек здоров, но болит голова из-за дискотеки (1 — 0.01)*0.1

Тогда согласно теореме Байеса, эта вероятность составляет около 8%
[ P(A|B) = [P(B|A) * P(A)] / P(B) = 0.91 * 0.01 / 0.1081 = 0.08418 ]

Теорема Байеса соотносит вероятность наступления события А при условии, что произошло событие B [P(A|B)], с вероятностью того, что события A и B произойдут независимо друг от друга, а также условную вероятность того, что произойдет событие B, если событие A произошло [P(B|A)].

Нескончаемый спор

Теорема Байесаа вызвала среди математиков дискуссию, продолжающуюся по сей день. Спорящие разделились на два лагеря — «байесианцев» и «частотников». Оспаривается не верность теоремы, а ее применимость в тех или иных конкретных случаях — тогда, когда определение априорных вероятностей зависит от веры человека.

В нашем примере с гриппом такой спор невозможен: априорная вероятность составляет 1% того, что вы больны еще до того, как почувствовали головную боль. Однако установка априорных вероятностей совсем не такое простое дело. Допустим, по ощущениям врача, шанс того, что вы всё же больны, составляет 1 к 10. Соответствует ли статус этих 10% изначальному положению о том, что болен 1 человек из 100 ? «Байесианец» с этим утверждением согласится, но «частотник» не сделает этого до тех пор, пока не будет зафиксировано и проанализировано статически достаточное количество подобных случаев. По сути, этот спор ведется не столько о верности самой теоремы, сколько о взаимосвязи исходных данных и уровня их влияния на конечный результат.

Понять вероятность

Во время суда над предполагаемым насильником в Великобритании в 1990 г. жертва не смогла опознать обвиняемого среди предложенных ей нескольких людей. По её утверждению, ни один из них не соответствовал возрасту и описанию напавшего. Тем не менее обвиняемый был осужден на основании теста ДНК. Присяжным сказали, что лишь один из 20 млн человек может иметь такой ДНК. Во время апелляционных слушаний защита обратилась к теореме Байеса, задав присяжным вопрос: «Если бы обвиняемый действительно был нападавшим, какова вероятность того, что жертва сказала бы, что он совершенно на нападавшего не похож? И если бы он не был нападавшим, какова вероятность того, что жертва сказала бы, что он совершенно на нападавшего не похож?». Расчет был на то, что присяжные решат, что вторая ситуация более вероятна. Однако сила статических данных по ДНК всё же убедила присяжных. Подсудимый был вновь признан виновным.

Идентификация по ДНК основана на вероятности. Вообще говоря, любые измерения — вероятностный процесс. Правомерность этого подхода в суде всё чаще оспаривается, поскольку присяжным редко разъясняют возможность того, что данный образец ДНК может также принадлежать родственникам (в том числе и далеким) обвиняемого.

История преподобного Байеса

[Беркли] утверждает, что Логика и Метафизика откроют математикам глаза и выведут их из всех затруднений… Но если склоки среди профессоров любой науки позорят саму науку, а Логика и Метафизика намного более склочны, нежели математика, то почему же, раз я наполовину слеп, я должен выбирать себе в проводники того, кто вообще ничего не видит?
(Преподобный Томас Байес. В защиту математиков…)

В 2018 году исполнилось 316 лет со дня рождения провинциального английского священника Томаса Байеса. Это был человек, вне всяких сомнений обладавший выдающимся математическим дарованием, однако никогда не искавший славы и не публиковавший своих научных работ. Тем не менее, ныне Байес является одной из весьма почитаемых фигур в современной компьютерной индустрии. В особенности же это относится к разработчикам программного обеспечения, которые, по слухам, заблаговременно подготовились к достойному празднованию грядущего юбилея математика, заложившего фундамент мощного статистического метода, именуемого сейчас «байесовой оценкой».

Томас Байес
Томас Байес

Томас Байес родился в 1702 году в Лондоне, в семье одного из первых шести пресвитерианских священников Англии. По существовавшим среди кальвинистов правилам, как сын духовного лица Байес получил сугубо домашнее образование, рано проявил очень большие способности к математике, однако пошел по стопам отца и в 1720-е годы стал священником пресвитерианского прихода в городке Танбридж Уэллс, что примерно в 50 километрах от Лондона. На духовной службе Байес оставался здесь вплоть до 1752 года, после отставки продолжал жить в Танбридж Уэллсе, здесь же и закончил свою жизнь еще 9 лет спустя, 17 апреля 1761 года.

Среди современных ему английских ученых Байес был человеком весьма известным и в 1742 году был избран «в академики» (как сказали бы сейчас), т. е. в члены Лондонского Королевского общества, даже несмотря на тот факт, что священником не было опубликовано ни одной работы по математике. Более того, при жизни Байеса под его именем не вышло, строго говоря, вообще ни одной научной работы. Единственная работа отца Байеса, опубликованная им под своим именем (в 1731 году), носила сугубо теологический характер и имела характерное для той эпохи предлинное название «Благость господня, или попытка доказать, что конечной целью божественного провидения и направления является счастье его созданий».

Помимо же этого, в 1736 году Байесом анонимно была опубликована статья «Введение в теорию флюксий или В защиту математиков от нападок автора The Analyst (Комментатора)». Здесь Байес защищал ньютоновскую теорию дифференциального исчисления от атаки Джорджа Беркли (несколько позже получившего сан епископа в Клойне), пытавшегося с метафизических позиций раскритиковать «неправильные», на его взгляд, логические основания мощнейшей математической теории.

Что же касается фундаментального исследования Байеса в области теории вероятностей, то оно было изложено им в «Эссе о решении проблем в теории случайных событий». Эту работу математика лишь после его смерти обнаружил друг Ричард Прайс, который и переслал статью в академию. В 1764 году это «Эссе» было опубликовано в «Трудах Лондонского Королевского общества», откуда и берет начало его мировая слава.

Теорема Байеса, имеющая ныне сильнейшее влияние на разработки компаний, создающих программное обеспечение, имеет дело с расчетом вероятности верности гипотезы в условиях, когда на основе наблюдений известна лишь некоторая частичная информация о событиях. Другими словами, по формуле Байеса можно более точно пересчитывать вероятность, беря в учет как ранее известную информацию, так и данные новых наблюдений. Главная, видимо, особенность теоремы Байеса в том, что для ее практического применения обычно требуется огромное количество вычислений-пересчетов, а потому расцвет методов байесовых оценок пришелся аккурат на революцию в компьютерных и сетевых инфотехнологиях. Конечно, эффективные методы статистических оценок интенсивно применяли и ранее, особенно военные в каких-нибудь экспертных или криптоаналитических системах, но по-настоящему широкая популярность и даже «мода на Байеса» пришли в 1990-е годы.

Пионером здесь стала британская интернет-компания Autonomy, для интеллектуального поиска информации созданная математиком (и ныне миллиардером) Майком Линчем. Программное обеспечение Autonomy, построенное на базе байесовых оценок, позволяет компьютерам «понимать» содержание неструктурированной информации, такой как текстовые участки веб-страниц или электронная почта. Например, с помощью байесовского аппарата по контексту достаточно элементарно подбирается нужная информация о реке Амазонке, а не о мифических племенах воинственных женщин или об онлайновом супермагазине с тем же названием Amazon. Просто по той причине, что контекст документа будет включать упоминания о джунглях, деревьях и Южной Америке.

Лежащая в основе Autonomy технология DRE (Dynamic Reasoning Engine) по сути дела сводит воедино вероятностные методы Томаса Байеса и труды Клода Шеннона по теории информации. Формулы Байеса связаны с вычислением вероятностных связей между многими переменными и определением их взаимовлияния. Используя эту технику и компьютерные мощности, удается выявлять связи между различными элементами информации. Поняв основной смысл текста (или другого информационного носителя), система Autonomy приступает к следующему шагу и использует теорию Шеннона, согласно которой чем менее часто встречается информация, тем она более информативна.

Майк Линч с редкостным апломбом любит заявлять, что «лишь 10 человек в мире знают, как все это [байесовы оценки] применять, причем треть таких людей работает на меня». Вряд ли стоит воспринимать слова математика-предпринимателя всерьез, скорее это так – работа на публику и раздувание щек, что называется, бизнеса ради. Байесовский математический аппарат разработан сейчас весьма мощно, и технологии на его основе применяются во множестве других компаний.

Например, корпорация Oracle использует теорию Байеса в своем новом ПО для баз данных, где с ее помощью выявляются характерные тенденции в сложных массивах данных, а также вносится столь популярная ныне «персонализация» в маркетинговые кампании. В корпорации Microsoft этот же статистический аппарат заложен в программы выявления неполадок в новой ОС WinXP, а еще ранее – был использован при создании для пакета MS Office столь доставшего всех своими ненужными советами «мистера Скрепки» (Mr Clippy). Этого надоедливого мультяшного субъекта, как известно, впоследствии задвинули подальше, дабы не раздражать без нужды клиентов. Впрочем, научному авторитету Томаса Байеса суетливый «Скрепыш» вряд ли нанес хоть какой-то урон.

И уж коли речь зашла о дискредитации ученого, то, быть может, наихудшую услугу ему оказывают разухабистые пиаровские тексты компании Autonomy, вещающие об «эксцентричном англичанине Томасе Байесе, который с одинаковым успехом занимался как доказательством существования бога, так и разработкой наиболее эффективных алгоритмов для игры в кости». По свидетельству историков, подобные заявления, мягко говоря, не соответствуют известным фактам из жизни этого человека.

Что же известно, так это на редкость мудрый подход Байеса к эффективности точных наук и к возможности их гармоничного сочетания с глубоким религиозным чувством.

Немного математики

Определение Гипотезы H1, H2, …, Hs — события, в условиях которых только и может появиться событие A.

Вычисляя вероятность A выдвигаем различные предположения (гипотезы) относительно обстоятельств, которые могут привести к событию A.

Априорные гипотезы — гипотезы, полученные до предстоящего опыта, апостериорные гипотезы — после.

После выдвижения гипотезы исследователь ставит опыты, результат опыта фиксируют. На их основании надо высказать новое мнение о первоначальной гипотезе. Какая из них подтвердилась, какая нет. Стоит ли продолжать опыты? Как долго?

Рассмотрим полную группу несовместных событий, вероятности появления которых P(H1), P(H2), …, P(Hs). Считаем, что они известны.

Событие А может наступить только вместе с каким-либо из событий H1, H2, …, Hs.

Вероятность появления события А по формуле полной вероятности будет
P(A) = P(H1)*P(A|H1) + P(H2)*P(A|H2) + … + P(Hs)*P(A|Hs).

Формула полной вероятности события:

Полная вероятность события A равна сумме произведений вероятностей гипотез на условные вероятности события вычисленные соответственно при каждой из гипотез.

-3

Пусть событие А произошло, тогда это изменит вероятности гипотез
P(H1), P(H2), …, P(Hs).

Тогда определим условные вероятности осуществления этих гипотез в предположении, что событие А произошло, т.е определим
P(H1|A), P(H2|A),.., P(Hs|A),

P(A*H1) = P(H1)*P(A|H1) = P(A)*P(H1|A)

Или P(H1|A) = [P(A|H1) * P(H1)] / P(A)

Значение формулы Бейеса состоит в том, что при наступлении события А , т.е. по мере получения новой информации, мы можем проверять и корректировать выдвинутые до испытания гипотезы. Такой подход называемый бейесовским, дает возможность корректировать управленческие решения в экономике, оценки неизвестных параметров распределения изучаемых признаков в статистическом анализе.

Формула Бейеса предназначена для вычисления апостериорных вероятностей гипотез после проведения опыта с учетом полученной информации (событие А уже произошло.

Психологические эксперименты показали, что люди при оценках вероятности игнорируют различие априорных вероятностей (ошибка базовой оценки), и потому правильные результаты, получаемые по теореме Бейеса, могут очень отличаться от ожидаемых.

Пусть известен результат опыта, а именно то, что произошло событие А. Этот факт может изменить априорные (то есть известные до опыта) вероятности гипотез.

Пример. После двух выстрелов двух стрелков, вероятности попаданий которых равны 0,6 и 0,7, в мишени оказалась одна пробоина. Найти вероятность того, что попал первый стрелок.
Решение:
Пусть событие
А– одно попадание при двух выстрелах, а гипотезы:
Н1– первый попал, а второй промахнулся,
Н2– первый промахнулся, а второй попал,
Н3– оба попали,
Н4– оба промахнулись.
Вероятности гипотез:
р(
Н1) = 0,6·0,3 = 0,18,
р(Н2) = 0,4·0,7 = 0,28,
р(Н3) = 0,6·0,7 = 0,42,
р(Н4) = 0,4·0,3 = 0,12.
Тогда
р(А/Н1) = р(А/Н2) = 1,
р(А/Н3) =р(А/Н4) = 0.
Следовательно, полная вероятность
р(А) = 0,18·1 + 0,28·1 + 0,42·0 + 0,12·0 = 0,46.
Применяя формулу Байеса, получим:
P(H1|A) = [P(A|H1) * P(H1)] / P(A) = [0.18 * 1] / 0.46 = 0.391

Физический смысл и терминология формулы Бейеса

Формула Бейеса позволяет «переставить причину и следствие»: по известному факту события вычислить вероятность того, что оно было вызвано данной причиной.

События, отражающие действие «причин», в данном случае обычно называют гипотезами, так как они — предполагаемые события, повлекшие данное.

Безусловную вероятность справедливости гипотезы называют априорной, а условную - с учетом факта произошедшего события — апостериорной (насколько вероятна причина оказалась с учетом данных о событии).

Можно также уточнять вероятность гипотезы, учитывая другие имеющиеся данные (другие произошедшие события). Для учета каждого следующего события нужно в качестве априорной вероятности гипотезы подставлять ее апостериорную вероятность с предыдущего шага.

Формулу Бейеса иногда называют формулой переоценки гипотез. Она позволяет дать оценку вероятности гипотез после того, как произошло событие. Томас Бейес формулу не выводил, она названа в честь признания его работ по теории вероятностей.

Метод фильтрации спама

При проверке письма вычисляется вероятность того, что оно — спам для множества гипотез.
«гипотезы» — это слова, и для каждого слова «достоверность гипотезы» — % этого слова в письме, а «зависимость события от гипотезы» P( B | Ai) — вычисленный ранее «вес» слова.

То есть «вес» письма - усредненный «вес» всех его слов.
Отнесение письма к «спаму» или «не-спаму» производится по тому, превышает ли его «вес» планку, заданную пользователем ( 60-80 %). После принятия решения по письму в базе данных обновляются «веса» для вошедших в него слов.

Недостаток метода : базируется на том, что одни слова чаще встречаются в спаме, а другие — в обычных письмах, и неэффективен, если данное предположение неверно.

Замечание: если 80% писем, содержащих словосочетание "разговорный английский", являлись спамом, то и следующее письмо с этим словосочетанием - спам, причем с большой долей вероятности.

Автор статьи: Кирилл Хало

Больше интересных статей читай в группе Physics.Math.Code.Books

Помощь по физике, математике, информатике, программированию, подробные разборы задач, консультации по решению, а также репетиторство и наставничество по техническим предметам вы можете найти в группе Репетитор | IT mentor