Врачи редко задумываются, что постановка диагноза имеет вероятностный характер и, как остроумно замечено, лишь патологоанатомическое исследование может достоверно определить диагноз не совсем живого "пациента".
!Вероятностный характер имеет большинство медико-биологических процессов!
Пример: мутация какого-либо локуса в геноме; наличие раковой клетки в составе ткани какого-либо органа; продолжительность госпитализации пациента с определённым диагнозом; возникновение очага возбуждения в определённой структуре головного мозга. Генетика и эволюционная теория особенно ярко демонстрируют вероятностные закономерности в биологии, и здесь отчётливо проявляется принципиальная роль случайностей.
!Количественная оценка закономерностей, относящихся к случайным событиям, даётся в разделе математики, называемом теорией вероятностей!
Эксперимент на языке теории вероятностей называется испытанием. Оно может проводиться теоретически, в одних и тех же условиях, неограниченное количество раз. Результатом каждого испытания является тот или иной его исход, называемый событием. Исход испытания не может быть однозначно предопределен, поэтому события называют случайными событиями.
Пример: случайное событие - вероятность того, что взятая наугад гамета с X-хромосомой, будет содержать (или НЕ содержать) мутацию, связанную с гемофилией. Иными словами, случайное событие — это такое событие, которое в результате испытания может произойти, а может и не произойти. Случайные события принято обозначать большими буквами латинского алфавита: А, В, С, D и т.д.
Итак, случайное событие может произойти или не произойти с какой-то вероятностью. Что такое вероятность?
Вероятностью (или частотой появления) p случайного события А, p(А), называется отношение количества m элементарных событий, благоприятствующих событию А, к общему количеству элементарных событий n:
p(А) = m/n.
Поскольку в общем случае 0 < m < n, то из этого определения следует, что вероятность произвольного случайного события принадлежит (∈) отрезку [0; 1], т.е.
0≤ p(А)≤1.
- Достоверное событие - событие, которое при реализации определенного комплекса условий произойдет непременно. Его вероятность будет равна 1 или 100%.
- Невозможное событие - событие, которое при реализации определенного комплекса условий не произойдет никогда. Его вероятность будет равна 0.
- В медико-биологических исследованиях достаточной считается вероятность появления события не менее 0,95 или 95%.
Для построения математических моделей случайного события А используется:
- пространство элементарных событий (исходов) Ω, которое представляет собой непустое множество.
- вероятностная мера p, приписывающая каждому событию 𝐴∈Ω некоторую вероятность p(А).
Множество Ω часто называют носителем; говорят также, что вероятностная мера p сосредоточена, или распределена, на носителе Ω. В зависимости от типа носителя Ω распределения делятся на два типа: дискретные и непрерывные.
Дискретные распределения
Дискретные данные представляют собой отдельные значения признака, общее число которых конечно, либо, если бесконечно, то является счётным. Дискретным данным соответствует номинальная и порядковая шкала.
Вероятность на счётном пространстве элементарных событий Ω={А1, А2,…} задаётся просто приписыванием неотрицательного числа p(А) каждому элементарному исходу А𝑘 с условием ∑𝑘*p(𝑘)=1.
Таким образом, дискретная случайная величина считается заданной, если известны ее возможные значения А1, А2,…, Ак и соответствующие им вероятности p1, p2, ..., pк. Набор чисел {𝑝𝑘} называют распределением вероятностей (probability mass function, pmf) на множестве Ω.
Совокупность значений случайных величин и их вероятностей, заданная в виде таблицы, называется рядом распределения, или распределением дискретной случайной величины:
Здесь же введём понятие математического ожидания случайной величины - это сумма произведений всех значений этой случайной величины на соответствующие вероятности:
μ = А1*р1 + А2*р2 + ... + Ак*рк
Нетрудно догадаться, что при большом количестве повторов математическое ожидание приближается к среднему значению случайной величины, поэтому его часто называют среднеожидаемым значением при многократном повторении испытаний.
Основные дискретные распределения:
- Дискретное равномерное;
- Бернулли;
- Биномиальное;
- Пуассоновское;
- Геометрическое.
Равномерные распределения
Непрерывные данные могут принимать любое значение в некотором интервале числовой прямой. Этому типу данных соответствует непрерывная и относительная шкала.
В отличие от дискретной случайной величины, непрерывная случайная величина может принять любое действительное значение из некоторого промежутка ненулевой длины, что делает невозможным её представление в виде таблицы: действительных чисел несчётно много. В этой связи непрерывную случайную величину задают функциями двух типов - функция распределения и функция плотности распределения.
Основные равномерные распределения:
- Равномерное непрерывное;
- Нормальное (гауссовское);
- Логнормальное;
- Гамма-распределение;
- Экспоненциальное;
- Лапласа;
- Коши;
- Бета-распределение;
- Хи-квадрат;
- Стьюдента;
- Фишера;
- Рэлея;
- Вейбулла;
- Логистическое;
- Вигнера;
- Парето.
Остановимся на нормальном распределении, так как распределение многих статистик является нормальным или может быть получено из нормальных с помощью некоторых преобразований. И нормальность распределение - условие, которое должно удовлетворяться при расчётах с использованием большинства статистических методов.
Нормальное распределение (гауссовское) в природе встречается чаще всего, поэтому оно и было названо нормальным. Нормальный диапазон физиологического показателя — одно из фундаментальных понятий в клинической медицине. Так, чрезвычайно высокий или низкий рост, артериальную гипертонию, гиперхолестеринемию и ожирение считают аномальными, когда их величина выходит за пределы нормального диапазона.
!Все эти и многие другие показатели - укладываются в нормальное (гауссовское) распределение! При оценке здоровья детей рост, масса тела, окружность головы и другие размеры также сравнивают с «нормальным» размером для ребенка такого пола и возраста.
Точная форма нормального распределения - характерная "колоколообразная кривая" с пиком в центре и симметричными боковыми сторонами.
Она задаётся функцией плотности вероятности, совпадающей с функцией Гаусса:
Глядя на формулу нашей функции, мы сразу можем сказать, что так как 2, π и е являются константами, то кривая функции плотности нормального распределения определяется только следующими параметрами: средним (х или Х(ср.)), математическим ожиданием (μ) и стандартным отклонением (σ). Пройдёмся по свойствам этого графика, опираясь на формулу функции Гаусса:
1) График плотности нормального распределения представляет собой колоколообразную фигуру, симметричную относительно прямой х = μ. В случае, когда среднее совпадает с математическим ожиданием, максимальное значение функции будет равно:
В этом случае величина максимума кривой определяется только стандартным отклонением (σ), и чем оно больше, тем меньшие значение будут у вершины кривой. Как уже было рассмотрено, σ является мерой разброса данных относительно среднего значения, и чем более разнообразные значения принимает случайная величина, тем более пологий график мы видим. При этом, если значение σ мало, то есть, данные не далеко рассеиваются относительно среднего значения, то график будет высоким и острым.
На практике часто используют следующие рассуждения: вероятность встретить те или иные значения случайной величины в выборке равна площади фигуры под кривой.
Пример: существует наибольшая вероятность встретить средние значения уровня холестерина в выборке испытуемых, так как уровень холестерина распределён по нормальному закону, а максимальную площадь имеют фигуры в центре колоколообразной кривой (они соответствуют значениям Х, близким к среднему). Логично, что под краями «колокола» находятся наименее вероятные очень высокие и очень низкие уровни холестерина.
2) При всех значениях (как положительных, так и отрицательных) функция плотности принимает положительные значения, и нормальная кривая расположена над осью. Это достигается за счёт наличия квадратов в формуле.
3) Кривая распределения имеет две точки перегиба с координатами:
В пределах одной "сигмы" будут находиться примерно 68% значений.
4) Можно показать, что практически рассеяние нормально распределенной случайной величины укладывается на участке "среднее значение ± 3σ".
5) Центральная предельная теорема: для бесконечного числа независимых случайных выборок одинакового объема, извлеченных из генеральной совокупности, выборочное распределение любой линейной комбинации выборочных средних будет стремиться к нормальному при объеме выборки, стремящейся к бесконечности.
Проверка распределения данных на нормальность является обязательной на начальном этапе статистической обработки данных. Существует множество вариантов проверки, и автор научного исследования волен выбирать самостоятельно, каким методом воспользоваться. К наиболее распространенным методам проверки принадлежности данных к нормальному распределению относятся критерии Колмогорова– Смирнова и Шапиро–Уилка. Они являются разновидностью критериев согласия.
Критерии согласия используются для проверки нулевой гипотезы (Н0), гласящей, что случайная величина распределена нормально. Результатом применения формальных тестов является определение уровня значимости р. Если полученный р>0,05, то Н0 принимается, и мы делаем вывод, что распределение исследуемых величин статистически значимо не отличается от нормального распределения. Если же р≤0,05, то Н0 отвергается, следовательно, исследуемое распределение статистически значимо отличается от нормального. В этом случае мы не можем воспользоваться готовыми аппаратами статистики для нормально распределённых величин.