Найти тему
FFA forecasts

"Ненормальность" закона распределения часовых процентных доходностей Биткойна (BTC-USD)

Оглавление

В статье «Эмпирическое распределение часовых доходностей Биткойна (BTC-USD)» оценены границы 99%-го доверительного интервала математического ожидания часовой процентной доходности Биткойна (BTC-USD). Оценка осуществлена с использованием асимптотических формул нижней и верхней границ интервала, предполагающих отсутствие информации о виде истинного закона распределения. Если, например, было бы известно, что часовые процентные доходности распределены согласно нормальному закону с известными дисперсией и математическим ожиданием, то оценки границ доверительного интервала математического ожидания рассчитывались бы с высокой точностью на основе квантилей распределения Стьюдента.

Нормальность доходностей позволила бы сделать и ряд других ценных выводов: в частности можно было бы с максимальной точностью вычислить вероятность того, что, к примеру, часовая доходность инвестиции в рассматриваемый инструмент (при открытии длинной позиции) выше 0,4% и т.п.

В настоящей статье делается попытка проверить гипотезу о том, что распределение часовых процентных доходностей BTC-USD является нормальным (нулевая гипотеза):

Но: F(x) = Fn(x),

где эмпирическая функция распределения, построенная на основе выборочных данных, обозначена как Fn(x), а F(x) – функция нормального распределения с параметрами математического ожидания и среднего квадратического отклонения, определенными на основе выборочных данных.

Альтернативная гипотеза, напротив, заключается в неравенстве эмпирической функции распределения и функции F(x):

Н1: F(x) ≠ Fn(x).

Очевидно, что гипотеза Но эквивалентна гипотезе о том, что функция стандартного нормального распределения в точках, соответствующих центрованным и нормированным значениям часовых доходностей BTC-USD, совпадает со значениями Fn(х).

Постановка и решение столь важной практической задачи, как проверка гипотезы Ho в условиях, когда истинное распределение не известно, а параметры предполагаемого распределения оцениваются на основе данных выборки, подробно рассмотрена в ряде литературных источников. Анализ лучших источников и описание простого практического примера для проверки Но с помощью статистики «омега-квадрат» приведено в статье «Практическое применение статистики омега-квадрат для проверки соответствия выборки нормальному распределению с неизвестными параметрами». Прочтение данной статьи и ознакомление с литературными источниками 1978-2014 гг (даже в части указанных в статье страниц) поможет избежать грубых ошибок, которые, к сожалению, допускаются авторами видео и текстовых материалов о проверке гипотез с помощью применения сред разработки кода на языках R или Python (или использования таких пакетов, например, как Stata, Gretl или IBM Statistics), выпущенных после 2020 года.

В рамках настоящей статьи для проверки Но будут применяться два основных непараметрических критерия согласия: критерий типа Колмогорова-Смирнова и критерий, основанный на статистике «омега-квадрат» Крамера-Мизеса-Смирнова.

Проверка гипотезы о нормальности часовой процентной доходности BTC-USD с помощью критерия типа Колмогорова-Смирнова

Для проверки гипотезы Но названным способом рекомендуется придерживаться простого алгоритма:

Шаг 1. Центрирование и нормирование процентных часовых доходностей BTC-USD

Необходимо центрировать и нормировать процентные часовые доходности BTC-USD согласно следующим формулам:

где cnR%i - центрированная нормированная часовая процентная доходность BTC-USD, R%i - процентная часовая доходность BTC-USD на i-ом наблюдении,

avR% - выборочное среднее процентной часовой доходности BTC-USD,

sR% - выборочное стандартное отклонение процентной часовой доходности BTC-USD.

Шаг 2. Построение вариационного ряда

Упорядочивание полученных на шаге 1 значений по возрастанию (построение вариационного ряда) и нумерация всех наблюдений (номер наблюдения далее обозначен буквой i).

Шаг 3. Построение функции распределения F(x)

Следует повторно подчеркнуть, что речь идет не об известном истинном распределении, а о предполагаемом нормальном распределении, параметры которого оценены на основе выборки. Как следствие, распределение F(x) строится на основе значений функции стандартного нормального распределения, соответствующих выборочным значениям cnR%i. В Microsoft Excel, к примеру, такая F(x) может быть легко оценена с помощью формулы “=НОРМСТРАСП(F6)”, где в ячейке F6 отражено определенное значение cnR%i.

Шаг 4. Определение выборочного значения показателя Dn

Выборочное значение показателя Dn определяется в соответствии со следующими формулами, приведенными на странице 81 известной книги Л.Н. Большева и Н.В. Смирнова «Таблицы математической статистики» (Наука, 1983):

-2

где n – объем выборки, i – номер наблюдения, F(Xi) – значение функции нормального стандартного распределения в точке Xi (i-ом выборочном значении показателя cnR%i). Следует отметить, что на третьем шаге F(xi) обозначена как F(x).

Шаг 5. Выбор уровня значимости и принятие решения об отклонении Но

Критические значения выборочной статистики, являющейся произведением показателя Dn и квадратного корня из числа наблюдений n, для случая, когда проверяется именно согласованность выборочных данных с нормальным стандартным распределением с неизвестными истинными параметрами, приведены в следующих литературных источниках:

- «Непараметрические методы статистики», автор Тюрин Ю.Н., Знание, 1978;

- «Непараметрические критерии согласия Колмогорова, Смирнова, Омега-Квадрат и ошибки при их применении», автор Орлов А.И., статья в научном журнале КубГАУ, №97(03), 2014.

В таблице, приведенной ниже, покажем критические значения, соответствующие наиболее распространенным уровням значимости.

-3

Очевидно, что при больших n формулы показателей, приведенных в двух источниках, будут отличаться не более, чем на 1% от Dn.

Гипотеза Но не отклоняется, если выполняется следующее неравенство:

-4

где Ккрит – критическое значение статистики типа Колмогорова-Смирнова, приведенное в таблице выше и учитывающее неизвестность истинного закона распределения и его параметров, но адаптированное для проверки гипотезы о нормальном распределении.

Проверим гипотезу о нормальности распределения процентных часовых доходностей BTC-USD на основе выборочных данных с помощью критерия типа Колмогорова-Смирнова

Как и в статье «Эмпирическое распределение часовых доходностей Биткойна (BTC-USD)», используем данные о статистике часовых процентных доходностей Биткойна за период с 01.01.2023 по 28.02.2024 (как получены эти данные и каким методом переведены в MS Excel, показано в начале вышеупомянутой статьи).

Начало и конец расчетного листа в MS Excel представлены на рисунках ниже.

Рассчитано на основе выборочных данных за период с 01.01.2023 до 28.02.2024. Источник: finance.yahoo.com (данные получены посредством использования библиотеки yfinance для Python)
Рассчитано на основе выборочных данных за период с 01.01.2023 до 28.02.2024. Источник: finance.yahoo.com (данные получены посредством использования библиотеки yfinance для Python)
Рассчитано на основе выборочных данных за период с 01.01.2023 до 28.02.2024. Источник: finance.yahoo.com (данные получены посредством использования библиотеки yfinance для Python)
Рассчитано на основе выборочных данных за период с 01.01.2023 до 28.02.2024. Источник: finance.yahoo.com (данные получены посредством использования библиотеки yfinance для Python)

На рисунке, приведенном ниже, отражено значение критерия Dn√n, определенное с применением формул вида «=МАКС(N2:N10093)» в MS Excel.

Рассчитано на основе выборочных данных за период с 01.01.2023 до 28.02.2024. Источник: finance.yahoo.com (данные получены посредством использования библиотеки yfinance для Python)
Рассчитано на основе выборочных данных за период с 01.01.2023 до 28.02.2024. Источник: finance.yahoo.com (данные получены посредством использования библиотеки yfinance для Python)

Установим уровень значимости 0,01, критическое значение для которого составляет 1,035. Так как выборочное значение составляет 12,16908, гипотеза Но о том, что часовая процентная доходность Биткойна распределена нормально с параметрами, оцененными на основе выборочных данных, отвергается.

Проверка гипотезы о нормальности часовой процентной доходности BTC-USD с помощью критерия «омега-квадрат» Крамера-Мизеса-Смирнова

Теперь проверим гипотезу Но с помощью критерия типа «омега-квадрат». Первые два шага полностью аналогичны рассмотренным выше шагам 1 и 2 алгоритма проверки с помощью статистики типа Колмогорова-Смирнова, поэтому начать описание алгоритма следует с Шага 3.

Шаг 3. Расчет статистики омега-квадрат (для случая проверки гипотезы о нормальности распределения при неизвестных истинных его параметрах) в соответствии с формулой, приведенной на странице 17 брошюры «Непараметрические методы статистики» (Тюрин Ю.Н., Знание, 1978)

Формула для расчета статистики выглядит следующим образом:

-8

В формуле используются следующие обозначения: OSQp - статистика омега-квадрат (для случая проверки гипотезы о нормальности распределения при неизвестных истинных его параметрах), n – объем выборки, Ф() – функция стандартного нормального распределения, i – номер наблюдения в построенном на шаге 2 вариационном ряду,

Шаг 4. Проверка гипотезы о соответствии результатов наблюдения нормальному распределению

Уровень значимости как и выше установим на уровне 1% (α=0,01). Согласно таблице №2 статьи «Непараметрические критерии согласия Колмогорова, Смирнова, Омега-Квадрат и ошибки при их применении» (автор Орлов А.И, научный журнал КубГАУ, №97(03), 2014), данному уровню значимости соответствует значение 0,178. Следовательно,

-9

Если OSQp ниже критического значения 0,178, нулевая гипотеза не отклоняется на уровне значимости 0,01. В противном случае, Но отклоняется.

Проверим гипотезу о нормальности распределения процентных часовых доходностей BTC-USD на основе выборочных данных с помощью статистики типа «омега-квадрат»

Начало и конец расчетного листа в MS Excel представлены на рисунках ниже.

Рассчитано на основе выборочных данных за период с 01.01.2023 до 28.02.2024. Источник: finance.yahoo.com (данные получены посредством использования библиотеки yfinance для Python)
Рассчитано на основе выборочных данных за период с 01.01.2023 до 28.02.2024. Источник: finance.yahoo.com (данные получены посредством использования библиотеки yfinance для Python)
Рассчитано на основе выборочных данных за период с 01.01.2023 до 28.02.2024. Источник: finance.yahoo.com (данные получены посредством использования библиотеки yfinance для Python)
Рассчитано на основе выборочных данных за период с 01.01.2023 до 28.02.2024. Источник: finance.yahoo.com (данные получены посредством использования библиотеки yfinance для Python)

На основе этих данных в MS Excel определено выборочное значение статистики OSQp, выдержка приведена на рисунке ниже.

Рассчитано на основе выборочных данных за период с 01.01.2023 до 28.02.2024. Источник: finance.yahoo.com (данные получены посредством использования библиотеки yfinance для Python)
Рассчитано на основе выборочных данных за период с 01.01.2023 до 28.02.2024. Источник: finance.yahoo.com (данные получены посредством использования библиотеки yfinance для Python)

Так как OSQp составило 66,7605280 и превышает критическое значение статистики типа «омега-квадрат» 0,178 (при уровне значимости 0,01), гипотеза Но отвергается.

Из вышеизложенного следует, что гипотеза о нормальном распределении часовых процентных доходностей Биткойна отклоняется на уровне значимости 0,01 (при ее проверке как с помощью критерия типа «Колмогорова-Смирнова», так и с помощью критерия «омега-квадрат» Крамера-Мизеса-Смирнова). В заключение приведен график эмпирической и предполагаемой нормальной (с параметрами, полученными на основе данных выборки) функций распределения процентных часовых доходностей Биткойна. Отклоняющиеся друг от друга графики визуально подтверждают отличие эмпирического распределения от класса нормальных распределений.

Графики функций распределения процентных часовых доходностей Биткойна BTC-USD
Графики функций распределения процентных часовых доходностей Биткойна BTC-USD