Критерий согласия Пирсона (или критерий хи-квадрат согласия Пирсона) — это статистический критерий, который используется для проверки гипотезы о том, что наблюдаемое распределение категориальной переменной соответствует ожидаемому (теоретическому) распределению. Иными словами, он оценивает, насколько хорошо “подгоняются” наблюдаемые данные к предполагаемой теоретической модели.
Когда используется критерий согласия Пирсона:
- Когда у вас есть одна категориальная переменная (например, цвет глаз, тип автомобиля, политические предпочтения).
- Когда у вас есть ожидаемое (теоретическое) распределение этой переменной. Это может быть равномерное распределение (все категории равновероятны), распределение, основанное на предыдущих исследованиях, или распределение, предсказанное теоретической моделью.
- Вы хотите проверить, насколько хорошо ваши наблюдаемые данные соответствуют этому ожидаемому распределению.
Гипотезы:
- Нулевая гипотеза (H0): Наблюдаемое распределение соответствует ожидаемому распределению.
- Альтернативная гипотеза (H1): Наблюдаемое распределение не соответствует ожидаемому распределению.
Процедура проведения критерия согласия Пирсона:
- Определение категорий переменной: Определите все возможные категории вашей категориальной переменной (например, если переменная - цвет глаз, категории могут быть “голубой”, “карий”, “зеленый”, “серый”).
- Сбор данных и расчет наблюдаемых частот: Соберите данные и определите частоту встречаемости каждой категории в вашей выборке. Это и есть наблюдаемые частоты (Oi).
- Определение ожидаемых частот: Определите ожидаемую частоту для каждой категории, исходя из вашего теоретического распределения.Если вы предполагаете равномерное распределение, то ожидаемая частота для каждой категории равна общему количеству наблюдений, деленному на количество категорий.
Если у вас есть другое теоретическое распределение, то умножьте общую сумму наблюдений на вероятность, соответствующую каждой категории.
Пример:
Предположим, вы хотите проверить, является ли игральная кость честной. Вы бросаете кость 60 раз и получаете следующие результаты:
- 1: 7 раз
- 2: 12 раз
- 3: 9 раз
- 4: 15 раз
- 5: 11 раз
- 6: 6 раз
Вы предполагаете, что кость честная, то есть каждая грань должна выпадать с одинаковой вероятностью (1/6). Следовательно, ожидаемая частота для каждой грани равна 60 * (1/6) = 10.
- Категории: 1, 2, 3, 4, 5, 6 (k = 6)
- Наблюдаемые частоты (Oi): 7, 12, 9, 15, 11, 6
- Ожидаемые частоты (Ei): 10, 10, 10, 10, 10, 10
Вывод: Нет статистически значимых оснований утверждать, что игральная кость не является честной. Наблюдаемые результаты не противоречат гипотезе о равномерном распределении.
Условия применения критерия согласия Пирсона:
- Категориальная переменная: Переменная должна быть категориальной.
- Независимость наблюдений: Наблюдения должны быть независимыми друг от друга.
- Достаточно большой размер выборки: Ожидаемая частота в каждой категории должна быть достаточно большой (обычно не менее 5). Если ожидаемые частоты слишком малы, то результаты критерия могут быть ненадежными.
Преимущества критерия согласия Пирсона:
- Прост в использовании и интерпретации.
- Не требует предположений о форме распределения генеральной совокупности (непараметрический тест).
Недостатки критерия согласия Пирсона:
- Требует, чтобы все ожидаемые частоты были достаточно большими.
- Чувствителен к размеру выборки (при больших размерах выборки даже небольшие отклонения от ожидаемого распределения могут быть статистически значимыми).
В заключение, критерий согласия Пирсона является полезным инструментом для проверки гипотез о соответствии наблюдаемых данных ожидаемому распределению. Правильное применение этого критерия позволяет делать обоснованные выводы о справедливости наших предположений о распределении категориальных переменных.