В статье «Эмпирическое распределение часовых доходностей Биткойна (BTC-USD)» оценены границы 99%-го доверительного интервала математического ожидания часовой процентной доходности Биткойна (BTC-USD). Оценка осуществлена с использованием асимптотических формул нижней и верхней границ интервала, предполагающих отсутствие информации о виде истинного закона распределения. Если, например, было бы известно, что часовые процентные доходности распределены согласно нормальному закону с известными дисперсией и математическим ожиданием, то оценки границ доверительного интервала математического ожидания рассчитывались бы с высокой точностью на основе квантилей распределения Стьюдента.
Нормальность доходностей позволила бы сделать и ряд других ценных выводов: в частности можно было бы с максимальной точностью вычислить вероятность того, что, к примеру, часовая доходность инвестиции в рассматриваемый инструмент (при открытии длинной позиции) выше 0,4% и т.п.
В настоящей статье делается попытка проверить гипотезу о том, что распределение часовых процентных доходностей BTC-USD является нормальным (нулевая гипотеза):
Но: F(x) = Fn(x),
где эмпирическая функция распределения, построенная на основе выборочных данных, обозначена как Fn(x), а F(x) – функция нормального распределения с параметрами математического ожидания и среднего квадратического отклонения, определенными на основе выборочных данных.
Альтернативная гипотеза, напротив, заключается в неравенстве эмпирической функции распределения и функции F(x):
Н1: F(x) ≠ Fn(x).
Очевидно, что гипотеза Но эквивалентна гипотезе о том, что функция стандартного нормального распределения в точках, соответствующих центрованным и нормированным значениям часовых доходностей BTC-USD, совпадает со значениями Fn(х).
Постановка и решение столь важной практической задачи, как проверка гипотезы Ho в условиях, когда истинное распределение не известно, а параметры предполагаемого распределения оцениваются на основе данных выборки, подробно рассмотрена в ряде литературных источников. Анализ лучших источников и описание простого практического примера для проверки Но с помощью статистики «омега-квадрат» приведено в статье «Практическое применение статистики омега-квадрат для проверки соответствия выборки нормальному распределению с неизвестными параметрами». Прочтение данной статьи и ознакомление с литературными источниками 1978-2014 гг (даже в части указанных в статье страниц) поможет избежать грубых ошибок, которые, к сожалению, допускаются авторами видео и текстовых материалов о проверке гипотез с помощью применения сред разработки кода на языках R или Python (или использования таких пакетов, например, как Stata, Gretl или IBM Statistics), выпущенных после 2020 года.
В рамках настоящей статьи для проверки Но будут применяться два основных непараметрических критерия согласия: критерий типа Колмогорова-Смирнова и критерий, основанный на статистике «омега-квадрат» Крамера-Мизеса-Смирнова.
Проверка гипотезы о нормальности часовой процентной доходности BTC-USD с помощью критерия типа Колмогорова-Смирнова
Для проверки гипотезы Но названным способом рекомендуется придерживаться простого алгоритма:
Шаг 1. Центрирование и нормирование процентных часовых доходностей BTC-USD
Необходимо центрировать и нормировать процентные часовые доходности BTC-USD согласно следующим формулам:
где cnR%i - центрированная нормированная часовая процентная доходность BTC-USD, R%i - процентная часовая доходность BTC-USD на i-ом наблюдении,
avR% - выборочное среднее процентной часовой доходности BTC-USD,
sR% - выборочное стандартное отклонение процентной часовой доходности BTC-USD.
Шаг 2. Построение вариационного ряда
Упорядочивание полученных на шаге 1 значений по возрастанию (построение вариационного ряда) и нумерация всех наблюдений (номер наблюдения далее обозначен буквой i).
Шаг 3. Построение функции распределения F(x)
Следует повторно подчеркнуть, что речь идет не об известном истинном распределении, а о предполагаемом нормальном распределении, параметры которого оценены на основе выборки. Как следствие, распределение F(x) строится на основе значений функции стандартного нормального распределения, соответствующих выборочным значениям cnR%i. В Microsoft Excel, к примеру, такая F(x) может быть легко оценена с помощью формулы “=НОРМСТРАСП(F6)”, где в ячейке F6 отражено определенное значение cnR%i.
Шаг 4. Определение выборочного значения показателя Dn
Выборочное значение показателя Dn определяется в соответствии со следующими формулами, приведенными на странице 81 известной книги Л.Н. Большева и Н.В. Смирнова «Таблицы математической статистики» (Наука, 1983):
где n – объем выборки, i – номер наблюдения, F(Xi) – значение функции нормального стандартного распределения в точке Xi (i-ом выборочном значении показателя cnR%i). Следует отметить, что на третьем шаге F(xi) обозначена как F(x).
Шаг 5. Выбор уровня значимости и принятие решения об отклонении Но
Критические значения выборочной статистики, являющейся произведением показателя Dn и квадратного корня из числа наблюдений n, для случая, когда проверяется именно согласованность выборочных данных с нормальным стандартным распределением с неизвестными истинными параметрами, приведены в следующих литературных источниках:
- «Непараметрические методы статистики», автор Тюрин Ю.Н., Знание, 1978;
- «Непараметрические критерии согласия Колмогорова, Смирнова, Омега-Квадрат и ошибки при их применении», автор Орлов А.И., статья в научном журнале КубГАУ, №97(03), 2014.
В таблице, приведенной ниже, покажем критические значения, соответствующие наиболее распространенным уровням значимости.
Очевидно, что при больших n формулы показателей, приведенных в двух источниках, будут отличаться не более, чем на 1% от Dn.
Гипотеза Но не отклоняется, если выполняется следующее неравенство:
где Ккрит – критическое значение статистики типа Колмогорова-Смирнова, приведенное в таблице выше и учитывающее неизвестность истинного закона распределения и его параметров, но адаптированное для проверки гипотезы о нормальном распределении.
Проверим гипотезу о нормальности распределения процентных часовых доходностей BTC-USD на основе выборочных данных с помощью критерия типа Колмогорова-Смирнова
Как и в статье «Эмпирическое распределение часовых доходностей Биткойна (BTC-USD)», используем данные о статистике часовых процентных доходностей Биткойна за период с 01.01.2023 по 28.02.2024 (как получены эти данные и каким методом переведены в MS Excel, показано в начале вышеупомянутой статьи).
Начало и конец расчетного листа в MS Excel представлены на рисунках ниже.
На рисунке, приведенном ниже, отражено значение критерия Dn√n, определенное с применением формул вида «=МАКС(N2:N10093)» в MS Excel.
Установим уровень значимости 0,01, критическое значение для которого составляет 1,035. Так как выборочное значение составляет 12,16908, гипотеза Но о том, что часовая процентная доходность Биткойна распределена нормально с параметрами, оцененными на основе выборочных данных, отвергается.
Проверка гипотезы о нормальности часовой процентной доходности BTC-USD с помощью критерия «омега-квадрат» Крамера-Мизеса-Смирнова
Теперь проверим гипотезу Но с помощью критерия типа «омега-квадрат». Первые два шага полностью аналогичны рассмотренным выше шагам 1 и 2 алгоритма проверки с помощью статистики типа Колмогорова-Смирнова, поэтому начать описание алгоритма следует с Шага 3.
Шаг 3. Расчет статистики омега-квадрат (для случая проверки гипотезы о нормальности распределения при неизвестных истинных его параметрах) в соответствии с формулой, приведенной на странице 17 брошюры «Непараметрические методы статистики» (Тюрин Ю.Н., Знание, 1978)
Формула для расчета статистики выглядит следующим образом:
В формуле используются следующие обозначения: OSQp - статистика омега-квадрат (для случая проверки гипотезы о нормальности распределения при неизвестных истинных его параметрах), n – объем выборки, Ф() – функция стандартного нормального распределения, i – номер наблюдения в построенном на шаге 2 вариационном ряду,
Шаг 4. Проверка гипотезы о соответствии результатов наблюдения нормальному распределению
Уровень значимости как и выше установим на уровне 1% (α=0,01). Согласно таблице №2 статьи «Непараметрические критерии согласия Колмогорова, Смирнова, Омега-Квадрат и ошибки при их применении» (автор Орлов А.И, научный журнал КубГАУ, №97(03), 2014), данному уровню значимости соответствует значение 0,178. Следовательно,
Если OSQp ниже критического значения 0,178, нулевая гипотеза не отклоняется на уровне значимости 0,01. В противном случае, Но отклоняется.
Проверим гипотезу о нормальности распределения процентных часовых доходностей BTC-USD на основе выборочных данных с помощью статистики типа «омега-квадрат»
Начало и конец расчетного листа в MS Excel представлены на рисунках ниже.
На основе этих данных в MS Excel определено выборочное значение статистики OSQp, выдержка приведена на рисунке ниже.
Так как OSQp составило 66,7605280 и превышает критическое значение статистики типа «омега-квадрат» 0,178 (при уровне значимости 0,01), гипотеза Но отвергается.
Из вышеизложенного следует, что гипотеза о нормальном распределении часовых процентных доходностей Биткойна отклоняется на уровне значимости 0,01 (при ее проверке как с помощью критерия типа «Колмогорова-Смирнова», так и с помощью критерия «омега-квадрат» Крамера-Мизеса-Смирнова). В заключение приведен график эмпирической и предполагаемой нормальной (с параметрами, полученными на основе данных выборки) функций распределения процентных часовых доходностей Биткойна. Отклоняющиеся друг от друга графики визуально подтверждают отличие эмпирического распределения от класса нормальных распределений.