120 подписчиков

2.2. Проверка гипотез - закон больших чисел, или кто такой Стьюдент

15 февраля 202315 фев 2023

176

5 мин

Статистическая гипотеза - это некоторое предположение о свойствах и характеристиках исследуемых генеральных совокупностей. Проверяется на основе анализа выборок. Основная или нулевая гипотеза Н0 - это гипотеза, которой мы придерживаемся, пока наблюдения не заставят признать обратное. Альтернативная - Н1. Ошибка первого рода - отвергается Н0, когда она верна. Ошибка второго рода - принимается Н0, когда она неверна. Популярными уровнями значимости являются 5%, 1% и 0,1%. В научных экспериментах классически довольствуются первым, чего вполне достаточно, вспоминая о правиле "трёх сигма". Процедура проверки СГ: 1. Сформулировать Н0 и Н1. задать уровень значимости. 2. Найти критические значения и построить критическую область. 3. Вычислить по выборке значение статистики и посмотреть, попало ли оно в критическую область. 4. Вывод: если значение попало, отвергается Н0, если нет - не отвергается. Распределение Стьюдента Распределе́ние Стью́дента (t-распределение) в теории вероятностей — это од

Оглавление

Распределение Стьюдента
Спойлер: стат. критериев много
Закон больших чисел и проверка гипотез

Статистическая гипотеза - это некоторое предположение о свойствах и характеристиках исследуемых генеральных совокупностей.

Проверяется на основе анализа выборок.

Основная или нулевая гипотеза Н0 - это гипотеза, которой мы придерживаемся, пока наблюдения не заставят признать обратное.

Альтернативная - Н1.

Ошибка первого рода - отвергается Н0, когда она верна.

Ошибка второго рода - принимается Н0, когда она неверна.

Популярными уровнями значимости являются 5%, 1% и 0,1%. В научных экспериментах классически довольствуются первым, чего вполне достаточно, вспоминая о правиле "трёх сигма".

Процедура проверки СГ:

1. Сформулировать Н0 и Н1. задать уровень значимости.

2. Найти критические значения и построить критическую область.

3. Вычислить по выборке значение статистики и посмотреть, попало ли оно в критическую область.

4. Вывод: если значение попало, отвергается Н0, если нет - не отвергается.

Распределение Стьюдента

Распределе́ние Стью́дента (t-распределение) в теории вероятностей — это однопараметрическое семейство абсолютно непрерывных распределений. Уильям Сили Госсет первым опубликовал работы, посвящённые этому распределению, под псевдонимом «Стьюдент» по причине коммерческой тайны при оценке качества пива Гиннесс.

Для его применения нужно, чтобы исходные данные имели нормальное распределение.

График плотности распределения Стьюдента, как и нормального распределения, является симметричным и имеет вид колокола, но с более «тяжёлыми» хвостами, то есть реализациям случайной величины, имеющей распределение Стьюдента, более свойственно сильно отличаться от математического ожидания. Это делает его важным для понимания статистического поведения определённых типов отношений случайных величин, в которых отклонение в знаменателе увеличено и может производить отдалённые величины, когда знаменатель соотношения близок к нулю.

Распределение Стьюдента — частный случай обобщённого гиперболического распределения.

Распределение Стьюдента играет важную роль в статистическом анализе и используется, например, в t -критерии Стьюдента для оценки статистической значимости разности двух выборочных средних, при построении доверительного интервала для математического ожидания нормальной совокупности при неизвестной дисперсии, а также в линейном регрессионном анализе. Распределение Стьюдента также появляется в байесовском анализе данных, распределённых по нормальному закону.

Чем больше k (степени свободы), тем "уже" распределение.

Когда рассчитано t, и мы знаем число степеней свободы (это число элементов в нашей выборке), по таблице можно найти p-value (по сути, вероятность получить такие или более экстремальные данные). Например, оно равно 0,40, значит, 40% вероятно получить такие данные при истинности нулевой гипотезы Н0. И это больше, например, нашего уровня значимости, то есть Н0 нельзя отвергнуть.

Другой способ расчёта, в результате число, близкое к 0 (второй способ - рассчитываем tdist). Также видно, что значение t статистики превосходит критическое значение, то есть Н0 мы отвергаем (первый способ).

Спойлер: стат. критериев много

Закон больших чисел и проверка гипотез

— принцип, описывающий результат выполнения одного и того же эксперимента много раз. Согласно закону, среднее значение конечной выборки из фиксированного распределения близко к математическому ожиданию этого распределения.

Другими словами, чем больше объём выборки / чем чаще проводятся измерения какого-либо параметра, тем выше вероятность, что результаты окажутся близки к ожидаемым.

Закон больших чисел важен, поскольку он гарантирует устойчивость для средних значений некоторых случайных событий при достаточно длинной серии экспериментов.

Важно помнить, что закон применим только тогда, когда рассматривается большое количество испытаний.

Например, рассмотрим бросок шестигранной игральной кости, на которой с равной вероятностью может выпасть одно из чисел 1, 2, 3, 4, 5 или 6. Следовательно, математическое ожидание одного броска равно

(1+2+3+4+5+6):6=3,5

Согласно закону больших чисел, при большом количестве бросков их среднее значение, вероятно, будет близким к 3,5, при этом точность будет возрастать по мере увеличения числа бросков.

Из закона больших чисел следует, что эмпирическая вероятность успеха в серии испытаний Бернулли сходится к теоретической вероятности. Для случайной величины Бернулли математическое ожидание представляет собой теоретическую вероятность успеха, а среднее значение n таких переменных (если они независимы и одинаково распределены) является относительной частотой.

Например, бросок правильной монеты — это испытание Бернулли. При одном броске теоретическая вероятность выпадения «орла» равна 1/2. Поэтому, согласно закону больших чисел, доля «орлов» при большом количестве испытаний «должна быть» примерно 1/2.

Итальянский математик Джероламо Кардано (1501—1576) был страстным любителем азартных игр. «Побочным продуктом» его любви к игре в кости стала книга «Об азартных играх» (итал. De Ludo alea, 1563), содержащая формулировку закона больших чисел. В ней Кардано заявил, что точность эмпирической статистики, как правило, улучшается с количеством испытаний.

В 1713 году Якоб Бернулли изложил правила подсчёта вероятности для сложных событий и дал первый вариант «закона больших чисел», разъясняющего, почему частота события в серии испытаний не меняется хаотично, а в некотором смысле стремится к своему предельному теоретическому значению (то есть вероятности).

Следует также отметить работы С. Д. Пуассона (1781—1840), доказавшего более общую, чем у Якоба Бернулли, форму закона больших чисел.

П. Л. Чебышёв получил общую формулировку закона больших чисел: если математические ожидания серии случайных величин и квадраты этих математических ожиданий ограничены в совокупности, то среднее арифметическое этих величин с ростом сходится по вероятности к среднему арифметическому для их математических ожиданий.

А. А. Марков доказал вариант закона больших чисел для некоторых распространённых типов зависимых величин.

В XX веке исследования Чебышёва и Маркова продолжили А. Я. Хинчин и А. Н. Колмогоров. Они показали, что если случайные величины не только независимы, но и одинаково распределены, то существование у них математического ожидания является необходимым и достаточным условием для применимости закона больших чисел.

Проверка статистической гипотезы — это процесс принятия решения о том, противоречит ли рассматриваемая статистическая гипотеза наблюдаемой выборке данных.