Тест хи-квадрат (χ²) применяется для проверки статистических гипотез о соответствии эмпирического распределения (частот) выборки по категориям теоретическому закону распределения. Этот метод используется для проверки гипотезы о независимости двух случайных величин, а также для проверки однородности нескольких выборок.
Хи-квадрат можно применять в следующих условиях:
▪ Когда нужно определить наличие/отсутствие связи между категориальными переменными (например: «курильщики», «не курильщики»; «jazz», «rnb», «classic» и т.п.).
▪ Категории в сравнении, должны быть независимы друг от друга.
▪ Число наблюдений для репрезентативных результатов ≥ 20 (иногда ≥ 50).
▪ Математически ожидаемая частота (сколько раз значение в теории должно появиться в выборке) должна быть ≥ 5–10 для критерия Пирсона. * Если эта частота меньше, то необходимо использовать критерий Фишера.
При этом если нет возможности посмотреть таблицу значений хи-квадрат, то её можно построить самостоятельно на #python.
При тесте на критерий хи-квадрат полученное значение критерия хи-квадрат говорит о том, насколько фактические данные в выборке отличаются от ожидаемых результатов из таблицы.
Чем больше значение хи-квадрат, тем больше отличия между фактическими и математически ожидаемыми данными, и тем больше вероятность, что между категориями действительно есть связь.
Код на GitHub: https://gist.github.com/MikyPo/1b0745e2ab2f045ace6240d3097a7f33