Найти тему
ffa-consult

Практическое применение статистики омега-квадрат для проверки соответствия выборки нормальному распределению с неизвестными параметрами

Оглавление

В данной статье проводится сопоставление нескольких лучших литературных источников по математической статистике, в которых рассмотрены вопросы, связанные с критерием омега-квадрат (Крамера-Мизеса-Смирнова). Это сопоставление сделано для выработки простого алгоритма проверки соответствия выборочных данных нормальному распределению с неизвестными истинными параметрами. В конце статьи приводится простой численный пример. Сопоставление литературных источников гарантирует корректность сделанных выводов и позволит вам правильно описывать результаты ваших собственных исследований.

В отличие от научных публикаций в рецензируемых изданиях, где список литературных источников приводится после основной части и выводов, в рамках данной статьи целесообразно привести список именно в начале и представить его в табличном виде.

Постановка задачи для случая известных истинных параметров распределения

Обозначим известную исследователю истинную функцию распределения как F(x). Эмпирическую функцию распределения, построенную на основе выборочных данных, обозначим как Fn(x).

Нулевая гипотеза (страницы 208 и 213 Источника 2) заключается в равенстве эмпирической и истиной функций распределения и записывается следующим образом:

Но: F(x) = Fn(x).

Альтернативная гипотеза, напротив, заключается в неравенстве эмпирической и истиной функций распределения:

Н1: F(x) ≠ Fn(x).

Сходства и отличия в формулах статистики омега-квадрат (Крамера-Мизеса-Смирнова)

Статистический критерий, позволяющий проверить нулевую гипотезу, называется статистикой омега-квадрат Крамера-Мизеса-Смирнова. Формулы статистик в разных источниках незначительно отличаются, но отличия имеют чрезвычайно важное значение, когда речь идет о практическом применении таблиц критических значений. Таблица, приведенная ниже, отражает эти отличия.

В источниках, формулы из которых приведены в таблице, использованы следующие обозначения: i, m – номер наблюдения,
F(x), Fo(x) и G(x) – известная истинная (теоретическая) функция распределения,
Fn(x) – эмпирическая функция распределения,
Fo(Xi) и Fo(Xm) – значения известной истиной функции распределения в точках, соответствующих выборочным значениям,
ᴪ - весовая функция.
В источниках, формулы из которых приведены в таблице, использованы следующие обозначения: i, m – номер наблюдения, F(x), Fo(x) и G(x) – известная истинная (теоретическая) функция распределения, Fn(x) – эмпирическая функция распределения, Fo(Xi) и Fo(Xm) – значения известной истиной функции распределения в точках, соответствующих выборочным значениям, ᴪ - весовая функция.

Из вышеприведенной таблицы следует, что все выборочные формулы статистики идентичны друг другу. Однако сопоставление общих концептуальных формул указывает на то, что в Источнике 5 имеет место противоречие: множитель nучаствует в интегральной формуле, в отличие от Источника 1, но выборочные формулы в Источниках 1 и 5 совпадают, что невозможно. Из-за неточности, допущенной в Источнике 5, совместный анализ источников 3 и 5 может привести к неверному представлению о виде неравенства, содержащего значение критической статистики омега-квадрат. Это, в свою очередь, может привести к рискам того, что исследователь вместо произведения n и омега квадрат будет принимать во внимание только рассчитанное значение для омега-квадрат. Проверим, какие критические значения, согласно источникам 1, 2, 4 и 5, принимает число y, являющееся решением следующего уравнения:

-3
-4

Из вышеизложенного можно сделать следующий важнейший вывод: во всех таблицах математической статистики приводятся такие значения y, которые являются критическими именно для произведения n и омега-квадрат, но (!) не отдельно для омега-квадрат. Общую формулу в литературном Источнике 5, следовало бы скорректировать и поменять с

-5

на

-6

Следует подвести следующие итоги анализа:

1. Справедливо считать, что в источниках 1, 3, 4 и 5 приводятся таблицы, отражающие критические значения для произведения статистики омега-квадрат и числа наблюдений n. Но в случае такой трактовки табличных значений, общая концептуальная формула для статистики омега-квадрат должна быть записана только следующим образом:

-7

2. Расчетная формула произведения статистики омега-квадрат и числа наблюдений (n), которое и сравнивается с табличными значениями, совпадает во всех рассмотренных выше источниках (1, 2, 3, 4 и 5) и имеет следующий вид:

-8

Механизм решения задачи для случая известных истинных параметров распределения

Нулевая гипотеза (Но) не отклоняется, если произведение выборочного значения статистики омега-квадрат и числа n меньше или равно табличному значению, соответствующему вероятности, равной разности единицы и уровня значимости, задаваемого исследователем.

Если произведение выборочного значения статистики омега-квадрат и числа n больше табличного значения, соответствующего вероятности, равной разности единицы и уровня значимости, задаваемого исследователем, принимается альтернативная гипотеза (Н1).

Простой численный пример решения задачи, постановка которой рассмотрена выше, приведен на странице 213 Источника 2 (пример 5.2), но не является главным предметом настоящей статьи, так как в его основе лежит предположение об известности истинного теоретического закона распределения.

Уточнение постановки задачи: переход от известных истинных распределений к неизвестным

В источниках 3, 4 и 5 показаны существенные различия в механизме применения критерия Крамера-Мизеса-Смирнова в случаях, когда теоретическая истинная функция распределения известна и не известна. Эти отличия имеют чрезвычайно важное значение, когда исследователям предстоит принять решение об отклонении нулевой гипотезы, если у них есть только эмпирические данные о значениях выборки, но не данные о теоретической истинной функции распределения из пространства, которое в философии называется объективной реальностью.

Переформулируем нулевую и альтернативную гипотезы.

Но: Fp(x) = Fn(x),

где Fp(x) – предполагаемая теоретическая функция распределения, параметры которой оценены на основе выборки, Fn(x) – эмпирическая функция распределения.

Альтернативная гипотеза, напротив, заключается в неравенстве функций распределения Fp(x) и Fn(x):

Н1: Fp (x) ≠ Fn(x).

Согласно источникам 4 и 5 для проверки данной гипотезы необходимо определить статистику омега-квадрат (далее обозначается как "OSQp", от англ. omega-square with parameter) с использованием следующей формулы:

-9

где Fp(Xi) – значение предполагаемой функции распределения, параметры которой оценены на основе данных выборки, в точке Xi.

Очевидно, что данная формула алгебраически эквивалентна выражению для базового случая, в котором теоретическое истинное распределение (Fo(Xi)) известно:

-10

На странице 17 Источника 5 сделано важное замечание о том, что статистики вида OSQp не универсальны по отношению ко всем типам распределений. В Источниках 3, 4 и 5 представлены критические значения статистик для случая, когда проверяется именно нормальное распределение. В Источниках 3 и 5 в дополнение к значениям, позволяющим проверять нормальность распределения, указаны значения, позволяющие проверять соответствие выборочных значений показательному (экспоненциальному) распределению.

Следует отметить, что в Источнике 5 приведена упрощенная формула расчета OSQp именно для нормального распределения:

-11

где Ф(t) – функция стандартного нормального распредеения, xav – выборочное среднее значение случайной велчиины x, s – квадратный корень из выборочной несмещенной дисперсии.

В таблице, представленной ниже, отражены критические значения, которые принимает число y, удовлетворяющее следующему уравнению:

-12

в источниках 3, 4 и 5.

-13

Простой численный пример применения статистики омега-квадрат для проверки соответствия выборки нормальному распределению с неизвестными истинными параметрами

В качестве выборочных данных рассмотрим выборку часовых цен закрытия американского индекса Доу Джонса (DJIA) в период с 22.02.2024 до 27.02.2024. Способ получения данных описан в статье об эмпирическом распределении часовых процентных доходностей.

1 Шаг. Оценка выборочных характеристик xav и s

Выборочные характеристики определены в таблице, приведенной ниже.

-14

2 Шаг. Центрирование, нормирование и упорядочивание выборочных данных по возрастанию (построение вариационного ряда)

Центрирование и нормирование случайной величины x заключается в переходе от xm к отношению (xm-xav)/s.

-15

3 Шаг. Расчет статистики омега-квадрат (для случая проверки гипотезы о нормальности распределения при неизвестных истинных его параметрах) в соответствии с формулой, приведенной на странице 17 Источника 5

Для наглядности общая формула статистики для описанного случая приводится повторно:

-16

Расчет представлен в таблице, приведенной ниже.

-17

4 Шаг. Проверка гипотезы о соответствии результатов наблюдения нормальному распределению

Но: Fp(x) = Fn(x),

где Fp(x) – функция стандартного нормального распределения показателя (xm-xav)/s, оцененного на основе данных о значениях индекса Доу Джонса на конец часа с 22.02.2024 по 27.02.2024, Fn(x) – эмпирическая функция распределения значений индекса Доу Джонса на конец часа с 22.02.2024 по 27.02.2024.

Альтернативная гипотеза, напротив, заключается в неравенстве функций распределения Fp(x) и Fn(x):

Н1: Fp (x) ≠ Fn(x).

Уровень значимости для примера принимается на уровне 1% (α=0,01). Следовательно,

Так как OSQp = 0,1167240 и OSQp ниже критического значения 0,178, нулевая гипотеза принимается на уровне значимости 0,01.

Вывод: принимается гипотеза о соответствии закона распределения значений индекса Доу Джонса нормальному распределению с параметрами xav = 39 057,37 и s =113,19.

Следует отметить, что не верно делать выводы о законе распределения значений индексов фондового рынка на основе малого числа наблюдений (выше проанализировано лишь 28 значений). Использованные выше данные приведены только для целей обеспечения наглядности и упрощения численного примера.

Для доказательства экономической некорректности результата проверки гипотезы для случая увеличенного числа наблюдений до 273 (все часовые данные с 01.01.2024 до 27.02.2024).

Выборочные данные: n = 273, xav = 38 162,71, s = 555,84914, OSQp = 0,6967561.

Так как OSQp выше 0,178, гипотеза о соответствии закона распределения значений индекса Доу Джонса нормальному распределению с параметрами xav = 38 162,71 и s = 555,84914 отвергается на уровне значимости 0,01 (вероятность ошибочного отклонения гипотезы Но при условии, что она верна, составляет 0,01). На уровне значимости 0,001 гипотеза также будет отвергнута (критическое значение для этого уровня значимости составит 0,256).

Очень надеюсь, что данная статья была полезной для Вас.

Если у Вас есть другие вопросы в области математической статистики, эконометрики, бухгалтерского и управленческого учета, а также микро- и макроэкономики, записывайтесь, пожалуйста, на мои консультации на сайте ffaconsult.com.

Леонид Краснощеков