В общем, ничего научного или всеобъемлющего в этой маленькой статейке не будет. Гуру математики и критикам, возможно, всё покажется тривиальным и очевидным. Но если вам всё таки интересны любые математические рассказы, то welcome :) В нашем чате недавно была задачка по теории вероятности, на первый взгляд несложная, но дьявол кроется в мелочах. В любом явлении, есть малозаметные составляющие, которые тем не менее сильно влияют на его суть. Особенно часто это проявляется в физике, математике и программировании.
Формулировка задачи:
Вероятность рождения мальчика равна 0,5. Найти вероятность того, что среди 100 новорожденных окажется а) 50 мальчиков б) не менее 50 мальчиков
Можно попробовать разрешить задачу с помощью схемы Бернулли. Давайте вспомним что это за штука такая.
Схема Бернулли — это когда производится n однотипных независимых опытов, в каждом из которых может появиться интересующее нас событие A, причем известна вероятность этого события P(A) = p. Требуется определить вероятность того, что при проведении n испытаний событие A появится ровно k раз.
Поскольку речь идет о независимых испытаниях, и в каждом опыте вероятность события A одинакова, возможны лишь два исхода:
- A — появление события A с вероятностью p;
- «не А» — событие А не появилось, что происходит с вероятностью q = 1 − p.
Для применения схемы Бернулли должны быть выполнены следующие условия:
- Каждое испытание имеет ровно два исхода, условно называемых успехом и неудачей.
- Независимость испытаний: результат очередного эксперимента не должен зависеть от результатов предыдущих экспериментов.
- Вероятность успеха должна быть постоянной (фиксированной) для всех испытаний.
Важнейшее условие, без которого схема Бернулли теряет смысл — это постоянство. Сколько бы опытов мы ни проводили, нас интересует одно и то же событие A, которое возникает с одной и той же вероятностью p.
А теперь давайте зададимся вопросом. А всегда ли вероятность постоянна?
Между прочим, далеко не все задачи в теории вероятностей сводятся к постоянным условиям. Об этом вам расскажет любой грамотный репетитор по высшей математике. Даже такое нехитрое дело, как вынимание разноцветных шаров из ящика, не является опытом с постоянными условиями. Вынули очередной шар — соотношение цветов в ящике изменилось. Следовательно, изменились и вероятности.
Если же условия постоянны, можно точно определить вероятность того, что событие A произойдет ровно k раз из n возможных. Сформулируем этот факт в виде теоремы:
Теорема Бернулли. Пусть вероятность появления события A в каждом опыте постоянна и равна р. Тогда вероятность того, что в nнезависимых испытаниях событие A появится ровно k раз, рассчитывается по формуле:
В реальности эта схема часто применяется для решения задач, связанных с контролем качества продукции и надежности различных механизмов, все характеристики которых должны быть известны до начала работы.
Число сочетаний из n по k равно биномиальному коэффициенту:
Попробуем решить пункт а) в нашей задаче, то есть найдем вероятность того, что среди 100 новорожденных окажется 50 мальчиков.
Чтобы не мучить калькулятор, в качестве калькулятора можно использовать любой ЯП. Мне нравится Pascal для таких задач, потому что его IDE у меня очень быстро загружается даже на стареньком нетбуке :). Да и сам ЯП быстрый, красивый, понятный. Хотя в качестве средства для вычислений можно использовать что угодно. Хоть Excel. Тут уж всё очень субъективно.
Получилось следующее:
И, если тут нет ошибок, то получается, что вероятность того, что родится ровно 50 мальчиков равна 0,079589237… Если посмотреть на ответ, то не скажешь, что этот ответ очевиден. Многие в начале своего знакомства с теорией вероятностей совершают ошибку и предполагают, что раз у нас один мальчик рождается, с вероятностью ~ 0.5, то этот результат можно экстраполировать на большее число событий (на 50 новорожденных). Т.е. подумать, что половина мальчиков (50 из 100) родится с примерно такой же вероятностью ~ 0.5. Но это будет неправильно. Да и вообще, в математике и в физике очень часто случается, что длинные задачи решаются быстрее, чем короткие. А то, что кажется простым на первый взгляд, оказывается очень сложным, если вдуматься во все мелочи.
Попробуем решить пункт б) в нашей задаче, то есть найдем вероятность того, что среди 100 новорожденных окажется НЕ МЕНЕЕ 50 мальчиков.
Для начала, нужно как следует подумать над вопросом. Трактовать фразу «не менее 50» можно по-разному. На мой взгляд, эта фраза значит от 50 (включая 50) и до конца рассматриваемого диапазона (в нашем случае до 100). Т.е. нам нужно найти вероятность того, что количество мальчиков будет от 50 до 100.
И теперь, если вы занимаетесь обучением кого-то математике, если вы преподаватель в вузе, то это отличный повод поиздеваться над своими студентами. Как? Предложить им решить пункт б) в аналогичной (или такой же) задаче, когда вы объяснили им схему Бернулли, но еще не объясняли локальную и интегральную теоремы Муавра-Лапласа (о них мы далее поговорим). Ну и провести контрольную в обычном (не компьютерном классе), чтобы студенты измучились расчетами.
Конечно, это был сарказм. На самом деле, не нужно так делать! Это неправильно, это не делает вас умнее.
Проблема возникает в том, что мы теперь умеем рассчитывать вероятность рождения конкретного числа мальчиков, используя схему Бернулли, но как посчитать на промежутке? Величины у нас дискретная… Похоже нужно суммировать все вероятности для каждого количества мальчиков из диапазона [50; 100]. Либо мучить свой калькулятор, либо закодить небольшую расчетную программку
Получается, что вероятность того, что среди 100 новорожденных окажется НЕ МЕНЕЕ 50 мальчиков, равна 0,539794618…
А есть ли другие методы, когда можно обойтись без программирования?
Да, есть.
Вернемся к нашей задаче. Выборка у нас довольно большая. Поэтому такие задачи имеют второй способ решения.
Локальная и интегральная теоремы Лапласа (Муавра-Лапласа) решают аналогичную задачу с тем отличием, что они применимы к достаточно большому количеству независимых испытаний.
Теорема Муавра — Лапласа — одна из предельных теорем теории вероятностей, установлена Лапласом в 1812 году. Если при каждом из nнезависимых испытаний вероятность появления некоторого случайного события E равна p ∈ (0, 1), и m — число испытаний, в которых E фактически наступает, то вероятность справедливости неравенства близка (при больших n) к значению интеграла Лапласа.
С ростом n форма биномиальной фигуры распределения становится похожа на плавную кривую Гаусса.
При рассмотрении количества k появлений события A в n испытания Бернулли чаще всего нужно найти вероятность того, что k заключено между некоторыми значениями a и b. Так как при достаточно больших n промежуток [a, b] содержит большое число единиц, то непосредственное использование биномиального распределения
требует, как мы уже убедились, громоздких вычисления, так как нужно суммировать большое число определенных по этой формуле вероятностей.
Поэтому используют асимптотическое выражение для биномиального распределения при условии, что p фиксировано, а n →∞. Теорема Муавра — Лапласа утверждает, что таким асимптотическим выражением для биномиального распределения является нормальная функция.
Если в схеме Бернулли n →∞, величина p ∈ (0, 1) постоянна, а величина
ограничена равномерно по m и n ( то есть ∃a, b : -∞ < a ≤ xm ≤ b < +∞), то
Приближенную формулу
рекомендуется применять при n > 100 и m > 20.
Для доказательства теоремы будем использовать формулу Стирлинга из математического анализа:
При больших s величина Θ очень мала, и приближенная формула Стирлинга, записанная в простом виде
дает малую относительную ошибку, быстро стремящуюся к нулю при s→ +∞.
Нас будут интересовать значения m, не очень отличающиеся от наивероятнейшего. Тогда при фиксированном p условие n →+∞ будет также означать, что m→+∞, n - m →+∞. (3)
Поэтому использование приближённой формулы Стирлинга для замены факториалов в биномиальном распределении допустимо, и мы получаем
Также понадобится использование отклонения относительной частоты от наивероятнейшего значения:
Тогда выражение (4) приобретает вид:
Предположим, что
Взяв логарифм второго и третьего множителей равенства (6), применим разложение в ряд Тейлора:
Располагаем члены этого разложения по степеням xm:
Предположим, что при n →+∞,
Это условие, как уже было указано выше, означает, что рассматриваются значения m не очень далёкие от наивероятнейшего. Очевидно, что (10) обеспечивает выполнение (7) и (3).
Теперь, пренебрегая вторым и последующими членами в разложении (6), получаем, что логарифм произведения второго и третьего членов произведения в правой части (8) равен
Отбрасывая малые слагаемые в скобках первого множителя (6), получаем
Обозначив
переписываем (12) в виде
Поскольку в интервале [m, m + 1) имеется только одно целое число m, то можно сказать, что pn(m) есть вероятность попадания m в интервал [m, m + 1). Из (5) следует, что изменению m на 1 соответствует изменение xm на
Поэтому вероятность попадания m в интервал [m, m + 1) равна вероятность попадания xm в промежуток:
Если n →+∞ , то Δx →+0 и равенство (16) показывает, что нормальная функция φ(x) является плотностью случайной величины xm. Получается при n →+∞, nx³→0 для отклонения относительной частоты от наивероятнейшего значения справедлива асимптотическая формула (16), в которой φ(x) — нормальная функция с xm = 0 и σ² = pq/n.
Приведем пример расчета через формулу Муавра-Лапласа:
Как видно, результаты получились такие же.
Ну, а если мы хотим решить пункт б) с помощью данной формулы, то воспользуемся интегральной версией теоремы Муавра-Лапласа.
Интегральная теорема Лапласа
Если вероятность p появления случайного события A в каждом испытании постоянна, то вероятность Pn(m1 ≤ m ≤ m2) того, что в n испытаниях событие A наступит не менее m1 и не более m2 раз (от m1 до m2 раз включительно), приближенно равна:
При этом количество испытаний, разумеется, тоже должно быть достаточно большим и вероятность p не слишком мала/велика (ориентировочно npq > 10), иначе иначе приближение будет неважным либо плохим.
Функция Ф(x) называется функцией Лапласа, и её значения опять же сведены в стандартную таблицу. Микрокалькулятор здесь не поможет, поскольку интеграл является «неберущимся».
Для нашей задачи, используя таблицу значений функций Лапласа, получим:
Получили два примерных результата:
0,4601 — через схему Бернулли для вероятности, что количество мальчиков будет не менее 50.
0,49999 — через интегральную теорему Муавра-Лапласа для вероятности, что количество мальчиков будет не менее 50.
Какой способ использовать, зависит от конкретной задачи, от многих тонкостей, от начальных условий, от изменений вероятности, от количество данных в выборке, от того, какая точность вам нужна. Вот так вот мы рассмотрели «простую» задачку по теории вероятностей. Если вам нравятся статьи в подобном формате, поделитесь об этом в комментариях :)
Биномиальное распределение или биномиальный закон распределения вероятностей. Это наиболее распространённый вид дискретного распределения. Пусть проводится независимых испытаний (не обязательно повторных), в каждом из которых случайное событие может появиться с вероятностью p. Тогда случайная величина – число появлений события в данной серии испытаний, имеет биномиальное распределение.
Автор статьи: Кирилл Хало
Больше интересных статей читай в группе Physics.Math.Code.Books
Помощь по физике, математике, информатике, программированию, подробные разборы задач, консультации по решению, а также репетиторство и наставничество по техническим предметам вы можете найти в группе Репетитор | IT mentor