Найти в Дзене
Art of Data&Statistics

Критерий хи-квадрат Пирсона для проверки соответствия анализируемых данных закону нормального распределения

Критерий хи-квадрат - группа методов в математической статистике. Одной из областей их применения является определение различий между фактическими данными в выборке и теоретическими результатами, которые предположил исследователь. В принципе, анализ информации обычно начинается с того, что исследователь предполагает, что фактические данные соответствуют какому-нибудь закону распределения. В нашем случае, соответствуют ли результаты нормальному распределению. Понятие критерия хи-квадрат общее. В него входят разные методы. Но критерий Пирсона – самый популярный из них, поэтому названия иногда используют как синонимы: хи-квадрат Пирсона. Этот метод позволяет проверить значимость расхождения эмпирических (наблюдаемых) и теоретических (ожидаемых) частот. В частности, он позволяет проверить гипотезу о принадлежности наблюдаемой выборки нормальному закону распределения. Можно сказать, что хи-квадрат Пирсона является универсальным методом, так как позволяет проверить принадлежность выборочных

Критерий хи-квадрат - группа методов в математической статистике. Одной из областей их применения является определение различий между фактическими данными в выборке и теоретическими результатами, которые предположил исследователь. В принципе, анализ информации обычно начинается с того, что исследователь предполагает, что фактические данные соответствуют какому-нибудь закону распределения. В нашем случае, соответствуют ли результаты нормальному распределению.

Понятие критерия хи-квадрат общее. В него входят разные методы. Но критерий Пирсона – самый популярный из них, поэтому названия иногда используют как синонимы: хи-квадрат Пирсона. Этот метод позволяет проверить значимость расхождения эмпирических (наблюдаемых) и теоретических (ожидаемых) частот. В частности, он позволяет проверить гипотезу о принадлежности наблюдаемой выборки нормальному закону распределения. Можно сказать, что хи-квадрат Пирсона является универсальным методом, так как позволяет проверить принадлежность выборочных значений практическому любому закону распределения.

Критерий хи-квадрат Пирсона требует достаточно большого объема данных (n > 50) и вполне пригоден для решения несложных задач, так как мощность теста хи-квадрат при проверке нормальности распределения относительно невысока. Считается, что точность хи-квадрата находится где-то между визуальными способами оценки нормальности данных и применением других, более мощных, критериев согласия - тестами Шапиро-Уилка и Колмогорова-Смирнова.

Как и в случае всех остальных критериев согласия, хи-квадрат Пирсона предполагает расчёт определённой статистики, в данном случае хи-квадрата, который мы сопоставляем с критическим табличным значением хи-квадрата.

Сформируем нулевую и альтернативную гипотезу.

Н0: если хи-квадрат < хи-квадрат (крит.), то гипотеза о принадлежности выборки к нормальному распределению принимается.

Н1: если хи-квадрат > хи-квадрат (крит.), то гипотеза о принадлежности выборки к нормальному распределению - отвергается. И делается вывод о принадлежности данной выборки к какому-либо другому виду распределения.

Практическое применение хи-квадрата Пирсона для проверки данных нормальному распределению.

Пример: рассмотрим таблицу, которая содержит значения показателей ретикулоцитов, в процентном соотношении к общему объему крови (RET%) у 209 пациентов. Эмпирические частоты встречаемости, соответствующие каждому значению, указаны во второй строке таблицы.

Таблица со значениями RET%, которые расположены по возрастанию. Снизу указаны частоты встречаемости каждого значения: 0,3 - у 7 пациентов, 0,5 - у 9 и т.д.
Таблица со значениями RET%, которые расположены по возрастанию. Снизу указаны частоты встречаемости каждого значения: 0,3 - у 7 пациентов, 0,5 - у 9 и т.д.
Ретикулоциты – молодые эритроциты, образующиеся в костном мозге. Они находятся в крови в небольшом количестве. Ретикулоциты являются переходной формой между предшественниками эритроцитов в костном мозге и взрослыми эритроцитами. Референсные значения ретикулоцитов, в процентном соотношении к общему объему крови (RET%): для женщин - 0.59–2.07%, для мужчин - 0.67–1.92
Причины повышения числа ретикулоцитов в абсолютном выражении (в 10(степень9)/л крови) и в виде RET%: кровотечение; гемолиз (разрушение эритроцитов по разным причинам: из-за наследственного дефекта эритроцитов, в результате появления антител к собственным эритроцитам или токсического действия при малярии); .результат лечения анемии (ретикулоцитарный криз); воспалительные процессы; онкологические заболевания костного мозга или метастазы других опухолей в костный мозг; полицитемия (повышение количества гемоглобина и эритроцитов); восстановление работы костного мозга после химио- или лучевой терапии; прием эритропоэтина.
Причины понижения числа ретикулоцитов в абсолютном выражении (в 10(степень9)/л крови) и в виде RET%: железо-, В12-, фолиеводефицитная и апластическая анемия; алкоголизм: микседема – снижение функции щитовидной железы; заболевания почек; опухолевое поражение костного мозга или метастазы других опухолей в костный мозг; химио- или лучевая терапия; хронические инфекции; уремия; прием карбамазепина или хлорамфеникола.

Шаг 1. Рассчитаем среднее значение всех 209 показателей.

, где xi - значения переменных, x ̅ - среднее арифметическое значений переменных и n - объём выборки.
, где xi - значения переменных, x ̅ - среднее арифметическое значений переменных и n - объём выборки.

Шаг 2. Рассчитаем показатели дисперсии:

, где xi - значения переменных, x ̅ - среднее арифметическое значений переменных и n - объём выборки.
, где xi - значения переменных, x ̅ - среднее арифметическое значений переменных и n - объём выборки.

... и стандартного отклонения:

-5

Шаг 3. Рассчитаем теоретические частоты по следующей формуле:

-6

, где

-7

Шаг 4. Заполним результатами таблицу расчёта критерия хи-квадрат Пирсона.

-8

Шаг 5. Значение критерия хи-квадрат вычислим по формуле:

-9

Шаг 6. По таблице критических значений для критерия хи-квадрат Пирсона определим критическое значение этого критерия:

Критические точки распределения для критерия хи-квадрат Пирсона.
Критические точки распределения для критерия хи-квадрат Пирсона.

Число степеней свободы (v) для критерия Пирсона рассчитывается по формуле: v = n − 1 − r = 11 - 1 - 2 = 8,

где n - объём выборки, а r — количество переменных распределения.

Шаг 7. Делаем вывод:

-11