Продолжаю заметки кэпа.
Наткнулся на статью о научных закрытиях про статистическую значимость. Мол устарела и не надо пользоваться. Так и хочется сказать, ребята статистическая значимость великолепно работает, только надо уметь ей пользоваться.
Сначала простенькое пояснение, в каких случаях такого рода критерии используют. Пусть у нас есть 20 рыжих девушек и 100 девушек с другим цветом волос. Мы предположили, что рыжие в среднем тяжелее. Взвесили, посчитали средний вес рыжих и остальных. Убедились, что в нашей выборке рыжие в среднем тяжелее. Правда ли, что эффект справедлив для рыжих? Пример совершенно условный, у меня нет данных в пользу наличия связи меж цветом волос и весом. Нет и обратных.
Начнём с самого простого. Пусть вы приняли некую гипотезу на уровне значимости 0.05. Это означает, что в одном из 20 случаев вы ошибаетесь. Даю слово кэпа, именно так и расшифровывается эта вероятность. В общем весьма ненадёжно. На мой взгляд, это не доказательство, а свидетельство в пользу. Я лично счёл бы гипотезу доказанной на уровне значимости 0.0001. Кстати, добиться этого не так уж трудно, нужно брать не 2σ, а 4σ. Здесь, σ — среднее квадратичное отклонение.
Первое замечание было на уровне кэпа, но есть более сложные моменты. Дело в том, что в критерии значимости заложено предположение о нормальном распределении. Так предположение о нормальности распределения зашито в критерий Стьюдента. Но распределение веса у девушек отнюдь не обязано быть нормальным. Нормальное распределение получается при усреднении неких случайных величин. Но тот же вес может быть распределён совсем по другому.
Сейчас я приведу пример совершенно ненормального распределения. Это лотерея. Пусть миллион человек купили билеты за рубль. 500 получили приз по тысяче рублей каждый, а остальные не получили ничего или получили маленькие призы 2,10 и 30 рублей. И вот вы считаете вероятность того, что в двух подборках игроков средние одни и те же. Только у вас в одну подборку попал человек с большим призом. И разом сдвигается среднее. Т-тест выдаёт значимое различие. Но на деле то разницы нет, просто распределение далеко от нормального.
Перенесём пример с лотереей на упомянутых выше девушек. Представьте себе, что у всех кроме одной вес лежит в диапазоне от 50 до 60кг, но одна весит аж 100кг. Притом толстушка рыжая. Вы разом получаете значимое различие меж выборками, средний вес рыжих оказывается выше веса остальных. Но на деле разница то обусловлена одним выпавшим результатом, цвет волос явно ни при чём. Кстати, я проверил свой пример генерируя случайные числа. Т-тест выдаёт уровень значимости расхождений от 0.2 до 0.001. Если же выборки не различаются, то как и ожидалось расхождения уровне 0.05 встречаются примерно раз из 20.
Ну и последнее замечание. Оно уже относится не к статистике, а к интерпретации результатов. Представьте себе, что все рыжие девушки были из одной деревушки со своим режимом питания, да к тому же все родственницы в 5 колене. Да, мы можем получить значимое различие, но оно скорее всего будет связано не с цветом волос.
Так что же, статистическую значимость расхождений действительно нельзя считать, как написали на сайте N+1? Да нет, можно и нужно. Просто надо считать правильно. Для начала посмотреть, нет ли резко выбивающихся значений. Проверить, похоже ли распределение на нормальное. Кстати, оно и не обязано быть именно нормальным, но может быть ограниченным. К примеру, высота дерева не может достигать километра. Помнить, что даже наличие связи может намекать на третий фактор. Скажем владельцы золотых браслетов могут редко болеть туберкулёзом, но это не значит будто золото защищает от болезни. То есть даже доказанная закономерность не всегда означает причинно следственную связь.