Есть термин, который вызывает непонимание: это "значимость" в статистическом смысле. Давайте внесем ясность. Значимость для кого? — спрашивают (в том числе и) меня.
В статистике никакое событие не является невозможным. Если что-то исключено просто по определению, то оно просто вне рассмотрения, а обычно границу между невозможным и маловероятным провести очень трудно.
Например, если мы измеряем процент рыжих, то он до 100 и больше быть не может. А 99 может... технически, хотя ясно, что 99-то никак, явно меньше. А где граница между "может" и "невозможно", никто не скажет.
Более того, измерения могут дать заведомо бредовые значения, и их даже можно отсеять. Но опять-таки, отсев чреват выкидыванием ценной информации, а кроме того — где граница для отсева?
Давайте еще ближе к сути. Играем в орлянку (на этом примере можно объяснить суть всей теории вероятностей и статистики), подбрасывая монету и выигрывая/проигрывая в зависимости от стороны, на которую выпадет монета. Если монета честная, то есть выпадает равновероятно обеими сторонами, то средний выигрыш равен нулю (хотя именно при своих мы будем редко). А как доказать, что монета нечестная и выпадает орлом чаще?
Можно бросить ее два раза, и если оба раза будет орел, то... то ничего. Потому что честная монета дает такой исход с вероятностью 0.25, и ничего удивительного в этом нет.
Казалось бы, бросим монету десять раз!
Но если бросить монету десять раз, то надеяться на 5-5 было бы наивно: вероятность этого исхода тоже близка к 0.25 (0.246).
Однако выход есть. Сумма выигрышей/проигрышей в N партиях при игре честной монетой имеет распределение, близкое к нормальному (центральная предельная теорема). Причем у него нулевое матожидание (сумма нулей) и дисперсия, равная N (сумма единичек). А среднеквадратическое отклонение (сигма) равно корню из дисперсии. Про нормальное распределение известно, что оно редко отклоняется от матожидания более, чем на три сигмы. Редко — это с вероятностью меньше 0.0027. Еще реже — за пределы пяти сигм (вероятность меньше 5.74∙10⁻⁷)
То есть, при игре честной монетой, результат десяти тысяч партий не может выйти за пределы 300 монет, 500 уж точно. "Не может" в том смысле, что это событие крайне маловероятно и мы не допускаем такого случайного совпадения. По крайней мере, если есть другие объяснения.
А они есть.
Так что если вы проиграли за 10 тыс партий 300 монет, можно обоснованно предъявлять претензии, а если проиграли 500 — то ссылка на "повезло" звучит совсем неубедительно.
Теперь предположим, что у вас есть основания полагать, что среднее не равно нулю. Вероятность выигрыша 0.5-ε, вероятность проиграть 0.5+ε, среднее равно -2ε. Дисперсия при этом равна 1-4ε², но мы округлим ее до единицы. Во-первых, при маленьком эпсилон это допустимо, а во вторых, мы тем самым увеличим доверительный интервал.
Выбрав уровень доверия по правилу трех сигм, мы получим, что отклонений за 10тыс партий от среднего в 10000ε более, чем на 300 единиц, быть не может. Взяв эпсилон 0.05, мы получим, что нуль "невозможен". То есть, выйти в плюс никак нельзя по результатам 10 тыс игр монетой, которая с вероятностью 0.55 выпадает за врага и лишь с вероятностью 0.45 за вас.
Тогда говорят, что гипотеза "среднее отлично от нуля" значима.
Есть множество методов для проверки разных статистических гипотез и построения разных интервальных оценок. И везде один принцип: выбирается уровень доверия как вероятность случайного совпадения (то есть, что мы принимаем за невозможное) и строится интервал, в который некоторая величина "точно" попадет.
Вот пара примеров из справочника Handbook of Mathematics (у меня английский перевод с немецкого перевода с российского оригинала Бронштейна и Семендяева).
Игра BINGO, там пять шаров и должны извлекаться (аппаратом) равновероятно. Но так ли это? Пусть провели сто испытаний и получили:
18, 19, 21, 26 и 16 случаев на каждый шар. Равновероятно это или нет?
Применим тест "хи-квадрат". Теоретическая частота равна 20, ведь вероятность 0.2. Отклонения: -2, -1, +1, +6, -4. Возводим их в квадрат и делим на теоретическую частоту: 0.2, 0.05, 0.05, 1.8, 0.8. Сумма этих величин равна 2.9. Ее распределение известно: это хи-квадрат с четырьмя (5-1) степенями свободы, для него есть таблицы. То есть мы можем определить значение, больше которого случайно получиться "не может", то есть вероятность такого превышения мы считаем малой. Для уровня 0.05 получается число 9.5. У нас меньше, значит. гипотеза не отвергается. Можно доверять.
Впрочем, если выпадет два раза 17, два раза 16 и один раз 30, то это тоже всего лишь 6.3.
Второй пример. Сравниваем два корма для поросят. Две группы по 10 животных. Предполагаем нормальность прироста веса, причем с одним и тем же среднеквадратичным отклонением (разброс от корма не зависит). Средний прирост по одной группе 112.1кг, по второй 100.2кг. Первый корм лучше или это случайность? Применим t-тест. Посчитаем выборочную дисперсию и получим, допустим, 211 и 86. Вычислив некоторую t-величину по формуле, получим 2.2. Опять-таки распределение известно, с вероятностью 0.95 эта величина меньше (если гипотеза о равенстве средних верна), чем 2.101. У нас больше, значит, гипотезу отвергаем. Первый корм лучше.
Вот что такое "значимость".