Найти тему
Art of Data&Statistics

Вероятностный характер медико-биологических процессов. Закон распределения. Нормальный закон распределения.

Оглавление

Врачи редко задумываются, что постановка диагноза имеет вероятно­стный характер и, как остроумно замечено, лишь патологоанатомическое исследование может достоверно определить ди­агноз не совсем живого "пациента".

!Вероятностный характер имеет большинство медико-биологических процессов!

Пример: мутация какого-либо локуса в геноме; наличие раковой клетки в составе ткани какого-либо органа; продолжительность госпитализации пациента с определённым диагнозом; возникновение очага возбуждения в определённой структуре головного мозга. Генетика и эволюционная теория особенно ярко демонстрируют вероятностные закономерности в биологии, и здесь отчётливо проявляется принципиальная роль случайностей.

Клеточные мембраны плавно переходят между различными 3D-конфигурациями. Тип конфигурации в различные моменты времени носит, разумеется, вероятностный характер. И этот процесс вполне поддаётся моделированию!
Клеточные мембраны плавно переходят между различными 3D-конфигурациями. Тип конфигурации в различные моменты времени носит, разумеется, вероятностный характер. И этот процесс вполне поддаётся моделированию!

!Количественная оценка закономерностей, относящихся к случайным событиям, даётся в разделе математики, называемом теорией вероятностей!

Эксперимент на языке теории вероятностей называется испытанием. Оно может проводиться теоретически, в одних и тех же условиях, неограниченное количество раз. Результатом каждого испытания является тот или иной его исход, называемый событием. Исход испытания не может быть однозначно предопределен, поэтому события называют случайными событиями.

Пример: случайное событие - вероятность того, что взятая наугад гамета с X-хромосомой, будет содержать (или НЕ содержать) мутацию, связанную с гемофилией. Иными словами, случайное событие — это такое событие, которое в результате испытания может произойти, а может и не произойти. Случайные события принято обозначать большими буквами латинского алфавита: А, В, С, D и т.д.

Итак, случайное событие может произойти или не произойти с какой-то вероятностью. Что такое вероятность?

Вероятностью (или частотой появления) p случайного события А, p(А), называется отношение количества m элементарных событий, благоприятствующих событию А, к общему количеству элементарных событий n:

p(А) = m/n.

Поскольку в общем случае 0 < m < n, то из этого определения следует, что вероятность произвольного случайного события принадлежит (∈) отрезку [0; 1], т.е.

0≤ p(А)≤1.

  • Достоверное событие - событие, которое при реализации определенного комплекса условий произойдет непременно. Его вероятность будет равна 1 или 100%.
  • Невозможное событие - событие, которое при реализации определенного комплекса условий не произойдет никогда. Его вероятность будет равна 0.
  • В медико-биологических исследованиях достаточной считается вероятность появления события не менее 0,95 или 95%.

Для построения математических моделей случайного события А используется:

  • пространство элементарных событий (исходов) Ω, которое представляет собой непустое множество.
  • вероятностная мера p, приписывающая каждому событию 𝐴∈Ω некоторую вероятность p(А).
Множество Ω состоит из секторов 1 (1/4 круга), 2 (1/4 круга) и 3 (1/2 круга). Вероятность того, что: стрелка остановится на секторе 1 или 2 равна 1/4; того, что стрелка остановится на секторе 3 или 1 + 2 равна 1/2; того, что стрелка остановится на секторе 1 + 3 или 2+3 равна 3/4. Вероятность, что стрелка не попадёт ни на один сектор = 0, вероятность попадания на сектора и 1, и 2, и 3 = 1 (100%).
Множество Ω состоит из секторов 1 (1/4 круга), 2 (1/4 круга) и 3 (1/2 круга). Вероятность того, что: стрелка остановится на секторе 1 или 2 равна 1/4; того, что стрелка остановится на секторе 3 или 1 + 2 равна 1/2; того, что стрелка остановится на секторе 1 + 3 или 2+3 равна 3/4. Вероятность, что стрелка не попадёт ни на один сектор = 0, вероятность попадания на сектора и 1, и 2, и 3 = 1 (100%).

Множество Ω часто называют носителем; говорят также, что вероятностная мера p сосредоточена, или распределена, на носителе Ω. В зависимости от типа носителя Ω распределения делятся на два типа: дискретные и непрерывные.

Дискретные распределения

Дискретные данные представляют собой отдельные значения признака, общее число которых конечно, либо, если бесконечно, то является счётным. Дискретным данным соответствует номинальная и порядковая шкала.

Вероятность на счётном пространстве элементарных событий Ω={А1, А2,…} задаётся просто приписыванием неотрицательного числа p(А) каждому элементарному исходу А𝑘 с условием ∑𝑘*p(𝑘)=1.

Таким образом, дискретная случайная величина считается заданной, если известны ее возможные значения А1, А2,…, Ак и соответствующие им вероятности p1, p2, ..., pк. Набор чисел {𝑝𝑘} называют распределением вероятностей (probability mass function, pmf) на множестве Ω.

Совокупность значений случайных величин и их вероятностей, заданная в виде таблицы, называется рядом распределения, или распределением дискретной случайной величины:

где Ак - это событие к, а Рк - вероятность события к.
где Ак - это событие к, а Рк - вероятность события к.

Здесь же введём понятие математического ожидания случайной величины - это сумма произведений всех значений этой случайной величины на соответствующие вероятности:

μ = А1*р1 + А2*р2 + ... + Ак*рк

Нетрудно догадаться, что при большом количестве повторов математическое ожидание приближается к среднему значению случайной величины, поэтому его часто называют среднеожидаемым значением при многократном повторении испытаний.

Основные дискретные распределения:

  • Дискретное равномерное;
  • Бернулли;
  • Биномиальное;
  • Пуассоновское;
  • Геометрическое.

Равномерные распределения

Непрерывные данные могут принимать любое значение в некотором интервале числовой прямой. Этому типу данных соответствует непрерывная и относительная шкала.

В отличие от дискретной случайной величины, непрерывная случайная величина может принять любое действительное значение из некоторого промежутка ненулевой длины, что делает невозможным её представление в виде таблицы: действительных чисел несчётно много. В этой связи непрерывную случайную величину задают функциями двух типов - функция распределения и функция плотности распределения.

Основные равномерные распределения:

  • Равномерное непрерывное;
  • Нормальное (гауссовское);
  • Логнормальное;
  • Гамма-распределение;
  • Экспоненциальное;
  • Лапласа;
  • Коши;
  • Бета-распределение;
  • Хи-квадрат;
  • Стьюдента;
  • Фишера;
  • Рэлея;
  • Вейбулла;
  • Логистическое;
  • Вигнера;
  • Парето.

Остановимся на нормальном распределении, так как распределение многих статистик является нормальным или может быть получено из нормальных с помощью некоторых преобразований. И нормальность распределение - условие, которое должно удовлетворяться при расчётах с использованием большинства статистических методов.

Нормальное распределение (гауссовское) в природе встречается чаще всего, поэтому оно и было названо нормальным. Нормальный диапазон физиологического показателя — одно из фундаментальных понятий в клинической медицине. Так, чрезвычайно высокий или низкий рост, артериальную гипертонию, гиперхолестеринемию и ожирение считают аномальными, когда их величина выходит за пределы нормального диапазона.

!Все эти и многие другие показатели - укладываются в нормальное (гауссовское) распределение! При оценке здоровья детей рост, масса тела, окружность головы и другие размеры также сравнивают с «нормальным» размером для ребенка такого пола и возраста.

Точная форма нормального распределения - характерная "колоколообразная кривая" с пиком в центре и симметричными боковыми сторонами.

где f(x) - вероятность того, что событие x произойдёт.
где f(x) - вероятность того, что событие x произойдёт.

Она задаётся функцией плотности вероятности, совпадающей с функцией Гаусса:

-6

Глядя на формулу нашей функции, мы сразу можем сказать, что так как 2, π и е являются константами, то кривая функции плотности нормального распределения определяется только следующими параметрами: средним (х или Х(ср.)), математическим ожиданием (μ) и стандартным отклонением (σ). Пройдёмся по свойствам этого графика, опираясь на формулу функции Гаусса:

1) График плотности нормального распределения представляет собой колоколообразную фигуру, симметричную относительно прямой х = μ. В случае, когда среднее совпадает с математическим ожиданием, максимальное значение функции будет равно:

-7

В этом случае величина максимума кривой определяется только стандартным отклонением (σ), и чем оно больше, тем меньшие значение будут у вершины кривой. Как уже было рассмотрено, σ является мерой разброса данных относительно среднего значения, и чем более разнообразные значения принимает случайная величина, тем более пологий график мы видим. При этом, если значение σ мало, то есть, данные не далеко рассеиваются относительно среднего значения, то график будет высоким и острым.

-8

На практике часто используют следующие рассуждения: вероятность встретить те или иные значения случайной величины в выборке равна площади фигуры под кривой.

Пример: существует наибольшая вероятность встретить средние значения уровня холестерина в выборке испытуемых, так как уровень холестерина распределён по нормальному закону, а максимальную площадь имеют фигуры в центре колоколообразной кривой (они соответствуют значениям Х, близким к среднему). Логично, что под краями «колокола» находятся наименее вероятные очень высокие и очень низкие уровни холестерина.

2) При всех значениях (как положительных, так и отрицательных) функция плотности принимает положительные значения, и нормальная кривая расположена над осью. Это достигается за счёт наличия квадратов в формуле.

3) Кривая распределения имеет две точки перегиба с координатами:

-9

В пределах одной "сигмы" будут находиться примерно 68% значений.

4) Можно показать, что практически рассеяние нормально распределенной случайной величины укладывается на участке "среднее значение ± 3σ".

5) Центральная предельная теорема: для бесконечного числа независимых случайных выборок одинакового объема, извлеченных из генеральной совокупности, выборочное распределение любой линейной комбинации выборочных средних будет стремиться к нормальному при объеме выборки, стремящейся к бесконечности.

Проверка распределения данных на нормальность является обязательной на начальном этапе статистической обработки данных. Существует множество вариантов проверки, и автор научного исследования волен выбирать самостоятельно, каким методом воспользоваться. К наиболее распространенным методам проверки принадлежности данных к нормальному распределению относятся критерии Колмогорова– Смирнова и Шапиро–Уилка. Они являются разновидностью критериев согласия.

Критерии согласия используются для проверки нулевой гипотезы (Н0), гласящей, что случайная величина распределена нормально. Результатом применения формальных тестов является определение уровня значимости р. Если полученный р>0,05, то Н0 принимается, и мы делаем вывод, что распределение исследуемых величин статистически значимо не отличается от нормального распределения. Если же р≤0,05, то Н0 отвергается, следовательно, исследуемое распределение статистически значимо отличается от нормального. В этом случае мы не можем воспользоваться готовыми аппаратами статистики для нормально распределённых величин.