На Дне физиков студенты схематично изобразили нормальную кривую и объявили конкурс на лучший ответ на вопрос: что это такое? Победил ответ: верблюд 🐪 под одеялом :-) Что такое нормальное распределение и почему оно так 🤷♀ странно выглядит ? Начнём с теории вероятности.
Обычно вероятность обозначают буквой P (от англ. “probability” вероятность).
Классическое определение вероятности
Оно исторически сложилось первым. Особенно просто для понимания в случаях, когда случайные события являются равновероятными. Как например, бросание игрального кубика. Допустим, игрок А играет 🤾 против игрока Б. Правила таковы: если выпадет четное число 🤏, то выигрывает А, в нечётном случае выигрывает Б.
Вероятность – это отношение числа благоприятных событию исходов m к общему числу всех равновозможных исходов n
В нашем примере удача сопутствует каждому игроку с вероятностью 3/6 или 1/2 или 50%.
Когда мы находим математическое выражение вероятности, то можно 🤷 говорить о функции, обозначим её как
P = m/n
Это отношение числа благоприятных исходов к полному числу испытаний.
Функция вероятности P обладает некоторыми специальными свойствами:
- 1. 0<P<1 , так как количество благоприятных исходов не
может быть больше их общего числа.
- 2. Вероятность достоверного события равна единице или 100%.
- 3. Вероятность невозможного события равна нулю.
Статистическое определение вероятности
Классическим подходом к вероятности удобно пользоваться, когда количество всех равновозможных исходов в опыте ограничено и не слишком велико.
На практике чаще приходится решать задачи, в которых число исходов изменяется или бесконечно велико.
Закон больших чисел
показывает, что массовые случайные явления обладают одним уникальным свойством: с увеличением числа испытаний лучше прослеживается устойчивость их появления. Например, если повторить опыт бросания монетки 100 раз, то примерно в 50 испытаниях выпадет “орел”, а в 50 - “решка” (может быть 49 и 51, 48 и 52 и т.д.) Если увеличить число испытаний до 1000 раз, это приведет к еще большей устойчивости частоты полученных значений, а это уже определенная закономерность.
При статистическом подходе нас интересует не исход отдельно взятого испытания, а то, что получается в результате его многократного повторения, то есть в качестве статистической вероятности события принимают частоту появления того или иного события при неограниченном увеличении числа испытаний.
Статистический вероятностный подход используется повсеместно для анализа и прогнозирования событий, процессов, явлений. На его основе построены некоторые научные теории физики, квантовой механики, эволюции, генетики, информатики и др.
Где это применяется?
Вероятностно- статистические методы широко применяются в промышленности для контроля качества продукции, при технической диагностике оборудования, в организации массового обслуживания, в астрономических наблюдениях и физических измерениях. В клипе выше приведён закон распределения скоростец молекул в газе - распределение Максвелла - разновидность нормальной кривой. Современный маркетинг, социология, машинное обучение активно используют статистические методы.
С нормальным распределением тесно связаны биномиальное распределение, распределение Пуассона и др. Рассмотрим биномиальное распределение подробнее. Пусть выпадение значений на игральном кубике 5 или 6 рассматриваются как благоприятные, а 1,2,3,4 - как неблагоприятные. Итак вероятности
p - благоприятного исхода = 1/3
q - неблагоприятного исхода 2/3
а вместе p + q = 1
Вероятность того, что при n испытаниях выпадет k благоприятных исходов вычисляется по формуле на рисунке ниже.
Здесь C - число сочетаний, оно вычисляется по формуле n!/(k!•(n-k)!)
(Это число даёт ответ на вопрос, сколькими способами можно 🤷 выбрать k предметов из n, при этом порядок расположения не имеет значения. Знак ! означает факториал
m! - это произведение всех натуральных чисел от 1 до m.)
В самом деле, в нашем эксперименте с кубиком интересует общее количество благоприятных исходов, и не важно, в каком по счёту испытании выпал счастливый шанс.
При большом числе испытаний n наиболее вероятно появление p • n благоприятных испытаний и q• n неблагоприятных. Таким образом вычисляется математическое ожидание случайной величины. Но возможны и отклонения - в какой мере? Ответ даёт кривая Биномиального распределения.
На курсах высшей математики легко доказывается, что закон Биномиального распределения превращается в кривую нормального распределения, и тем точнее, чем больше общее число испытаний.
Если сосчитать среднее арифметическое квадратов отклонения случайной величины от математического ожидания то выйдет дисперсия (разброс), а корень квадратный из дисперсии - это отклрнение сигма , которое как раз и характеризует ширину кривой нормального распределения.
От сухой теории к живой 🏴☠ практике
Допустим, речь идёт о качестве промышленной продукции. Чем более калибровано (соответствует эталону) изделие, т.е. чем более оно качественно - это благоприятный исход, тем уже кривая нормального распределения. Не случайно концепция Шесть сигм качества соответствует уровню брака продукции примерно 1 случай на два миллиона испытаний. Это - следствие изложенного выше подхода, всё той же нормальной кривой. Оперируют на практике интегралом от функции нормального распределения - это интеграл ошибок.
С помощью статистических методов можно оценить ошибку случайной величины, доверительный интервал с наперёд заданной надежностью (95%, 98%...), в пределах которого находится измеримая величина и даже проверить статистическую гипотезу.
Статистический вывод
Например имеет ли место заказное судебное решение в гражданском деле - проще говоря, коррупция? Сама научная постановка этого вопроса и вывод о возможности неправосудных судебных актов - сильный ход против судебных злоупотреблений. В нашей практике был также прецедент оспаривания заказного рейтинга популярности конкурирующих бесплатных газет в крупном российском мегаполисе. Мы доказали, что слишком благоприятные для конкурента заказчика выводы и одновременно негативные для нашего клиента, основаны на нарушении принципа репрезентативности выборки.
Это можно проиллюстрировать примером. Анкетный опрос, измеряющий знание высшей математики, на международном конгрессе математиков даст куда более "красивые" результаты, чем опрос случайных прохожих у входа в метрополитен, но последний опрос лучше отражает "пульс города "- он репрезентативен. Недобросовестный исследователь 🧑🔬 или эксперт может путём наукообразной подтасовки сформировать такую выборку из генеральной совокупности, которая искажает объективную истину. Мы провели несложные математические расчёты и запросили разъяснения ключевых моментов исследования у директора рейтингового агентства под условием публикации нашего запроса в виде открытого письма в газете нашего клиента в случае неполучения ответа в течение 48 часов.
Директор рейтингового агентства вместо ответа просто отозвал результаты проведённого Агентством исследования. - Это предотвратило отток рекламодателей у нашего клиента.
Вот так простая шутка на Дне физика обернулась серьёзной математикой :-). В рамках краткой публикации невозможно изложить всей силы и красоты математической статистики. Обуздать случайность - это значит обрести контроль над ней.
Чёрные лебеди
Но важно помнить и о Чёрных лебедях - понятии, введённым Насимом Талебом.
Это такое маловероятное событие, которое отбрасывается исследователями, как пренебрежимо малое, которое в корне меняет дальнейший ход 🌌 истории, и в ретроспективе хорошо объяснимо.
Заморозка активов России в сумме примерно 350 млрд. долларов воспринималась главами Центрального банка и Министерства финансов РФ как "невозможный акт финансового терроризма". Но всё-таки этот Чёрный лебедь влетел в наш дом!