Найти в Дзене
Машинное обучение

Определение статуса рынка с помощью машинного обучения

Финансовые рынки имеют тенденцию менять свое поведение с течением времени, что сопровождается подъемами и спадами цен. Инвесторы часто пытаются определить текущий статус рынка, чтобы принимать макроэкономически обоснованные инвестиционные решения. Однако, в отличие от цен, рыночные режимы не поддаются прямому наблюдению, и их трудно определить. В этой статье мы применяем четыре модели машинного обучения без надзора для кластеризации рыночного режима индекса Russell 3000. Идеальные рыночные состояния, к определению которых мы стремимся, - это долгосрочные, устойчивые состояния, которые могут служить основой для принятия торговых решений. Выбор данных и характеристик В качестве набора данных для кластеризации мы выбрали ценовой ряд индекса Russell 3000 . Период обучения достаточно длинный, поэтому он охватывает основные поворотные моменты рынка, такие как "пузырь доткомов" и финансовый кризис 2007-2008 годов. Недельные ценовые ряды вместо дневных выбраны для того, чтобы мы могли сосредот
Оглавление

Финансовые рынки имеют тенденцию менять свое поведение с течением времени, что сопровождается подъемами и спадами цен. Инвесторы часто пытаются определить текущий статус рынка, чтобы принимать макроэкономически обоснованные инвестиционные решения. Однако, в отличие от цен, рыночные режимы не поддаются прямому наблюдению, и их трудно определить. В этой статье мы применяем четыре модели машинного обучения без надзора для кластеризации рыночного режима индекса Russell 3000. Идеальные рыночные состояния, к определению которых мы стремимся, - это долгосрочные, устойчивые состояния, которые могут служить основой для принятия торговых решений.

Выбор данных и характеристик

В качестве набора данных для кластеризации мы выбрали ценовой ряд индекса Russell 3000 . Период обучения достаточно длинный, поэтому он охватывает основные поворотные моменты рынка, такие как "пузырь доткомов" и финансовый кризис 2007-2008 годов. Недельные ценовые ряды вместо дневных выбраны для того, чтобы мы могли сосредоточиться на преобладающей долгосрочной тенденции, игнорируя шум и волатильность ежедневных колебаний.

Фондовый рынок самоорганизуется благодаря действиям всех трейдеров, многие из которых используют технический анализ, чтобы сделать выводы о лежащих в основе стохастических формирований ценовых рядов. Хотя технические индикаторы имеют свои собственные названия и интерпретации, все они подходят под одну из трех категорий: тренд, импульс и волатильность. Мы также добавляем в этот список четвертую категорию - доходность, поскольку доходность является наиболее наблюдаемым фактором движения цен. Чтобы не увеличивать период обучения, мы возьмем один или два индикатора из каждой категории, чтобы различать рыночные режимы. Ниже приведены шесть технических индикаторов, которые мы выбираем, чтобы помочь нам определить состояние рынка: медвежий, бычий или статичный.

Шесть технических индикаторов
Шесть технических индикаторов

Модели

В следующем разделе мы тестируем четыре модели кластеризации для определения рыночного состояния, используя визуализацию и статистические данные в качестве измерений эффективности.

1. K-means

K-means - это модель кластеризации на основе центроида, которая итеративно распределяет точки данных по нескольким кластерам. Ее основная цель - минимизировать сумму расстояний между точками и соответствующим центроидом кластера. Ниже приведена функция, k - количество кластеров, n - количество выборок.

-3

Мы определяем оптимальное число кластеров k=3 (k>2) с помощью метода локтя и оценки силуэта. Метод Локтя строит график объясненной вариации как функцию от числа кластеров и выбирает локоть кривой в качестве числа кластеров, которые следует использовать. Коэффициент силуэта - это мера того, насколько точка данных похожа внутри кластера (сплоченность) по сравнению с другими кластерами (разделение). Они хорошо дополняют друг друга.

-4

Результат кластеризации показывает, что данные чрезмерно рассеяны, особенно периоды медвежьего рынка. Кроме того, K-means очень чувствителен к начальному разбиению данных и каждый раз дает разные результаты кластеризации, что делает модель крайне ненадежной.

-5

2. Самоорганизующиеся модели (СОМ)

СOM - это нейронная сеть , обычно используемая для кластеризации высокоразмерных данных с алгоритмом конкурентного обучения, а не обучения с коррекцией ошибок, используемого другими искусственными нейронными сетями. Вес нейронов регулируется на основе их близости к "выигрышным" нейронам (т.е. нейронам, которые наиболее похожи на входной образец). После нескольких итераций похожие нейроны объединяются в группы и наоборот.

-6

Мы предполагаем, что каждая единица СОМ является центром кластера, таким образом, СОМ, состоящий из k единиц, будет выполнять задачу, аналогичную k-means. Eric(1997) отмечает, что алгоритмы SOM и K-Means строго идентичны, когда радиус функции соседства в СOM равен нулю. Целесообразно по-прежнему задавать k=3. Ниже приведена формула рассчета:

-7

По сравнению с кластеризацией K-means СOM имеет лучшую производительность при обнаружении медвежьего состояния, но результат кластеризации еще более разбросан, особенно в статических состояниях. Мы подозреваем, что причина в том, что и СOM, и K-means являются дискриминационными моделями, которые напрямую различают наблюдаемые данные независимо от их основного распределения. Создание генеративной модели, такой как гауссовские смешанные модели, может внести улучшения в прогноз.

-8

3. Модель смеси Гаусса (МГС)

Модель смеси Гаусса — это вероятностная модель, которая предполагает, что все точки данных генерируются из смеси конечного числа распределений Гаусса с неизвестными параметрами. Модель строится на основе распределения, которая предполагает, что все точки данных генерируются из конечного числа гауссовых распределений. В отличие от К-средних, МГС является мягким методом кластеризации, что означает, что отдельные распределения могут перекрываться Уравнение для многомерной модели МГС выглядит следующим образом.

-9

Байесовский информационный критерий ( БИК) - это критерий для выбора модели среди конечного множества моделей. Модели с более низким БИК, как правило, предпочтительнее. Соответственно, мы выбираем оптимальное количество кластеров k=6. Затем мы генерируем шесть временных последовательностей путем объединения недельных доходностей каждого кластера и группируем их в три режима с помощью динамического искривления времени (ДИВ) - алгоритма, используемого для измерения сходства между временными последовательностями. Меньшее расстояние означает большее сходство. Таким образом, с помощью ДИВ мы получаем состояния bull-0,1&2, static-4, bear-3&5.

-10
-11

Наш результат кластеризации показывает, что выделение медвежьего и бычьего рынков построено точнее и менее разрозненно.

4. Скрытая марковская модель (CMM)

Скрытая марковская модель (СММстатистическая модель, имитирующая работу процесса, похожего на марковский процесс с неизвестными параметрами, и задачей ставится разгадывание неизвестных параметров на основе наблюдаемых. Полученные параметры могут быть использованы в дальнейшем анализе, например, для распознавания образов. СММ может быть рассмотрена как простейшая байесовская сеть доверия.

Все три вышеперечисленные модели имеют одну и ту же проблему - игнорирование текущих состояний рынка. Чтобы решить эту проблему, мы вводим Марковскую модель, которая знает свое текущее состояние и учится на заданных входных данных стохастически переключаться между режимами. Среди них CMM стремится восстановить последовательность "скрытых" состояний из наблюдаемых данных, называемых "выбросами". HMM задается следующими переменными:

-12

Мы по-прежнему используем BIC, чтобы помочь нам определить оптимальное количество скрытых состояний и сгруппировать их в три режима с помощью DTW. Мы разделили набор данных с 1998 по 2021 год на три части. 1998-2013 годы используются в качестве обучающих данных. 2013-2018 годы - это валидационный набор. 2018-2021 годы оставлены для бэктестинга.

Свечной график с выявленными режимами обучения 1998-2013 гг.
Свечной график с выявленными режимами обучения 1998-2013 гг.

Как показано выше, в отличие от результатов кластеризации предыдущих моделей, каждое состояние имеет относительно стабильный прогноз. Кроме того, мы представляем матрицу переходов в таблице 1. Значения на диагонали, обозначают вероятность того, что текущее состояние останется неизменным в течение следующего периода. Этот результат дополнительно демонстрирует, почему СMM может создавать такие непрерывные состояния.

Матрица перехода
Матрица перехода

CMM меняет свои скрытые состояния на основе наблюдений. Поэтому наши шесть показателей должны иметь кардинально разные распределения при каждом состоянии. Прежде чем применить модель к тестовым данным, мы построим диаграммы для анализа средих и дисперсий , чтобы подтвердить нашу гипотезу. Например, в среднем график медвежего рынка имеет неровную форму, у него самый высокий индекс массы и волатильность и самая низкая доходность, CCI и RSI.

-15

Ниже показан результат кластеризации тестовых данных. Чтобы убедиться в правильности нашей кластеризации, необходимо проверить среднюю доходность каждого инструмента. Кроме того, согласно модели переключения дисперсии трех состояний, каждое состояние должно иметь отдельное распределение волатильности. Однако, применяя t-тест Стьюдента на пропускной способности канала Дончиана, мы не можем доказать, что средние значения волатильности каждого инструмента существенно отличаются друг от друга.

Свечной график с выявленными режимами обучения 2013–2018 гг.
Свечной график с выявленными режимами обучения 2013–2018 гг.

Чтобы решить эту проблему, мы ищем новые признаки из следующих измерений: фондовые индексы, рынок деривативов, рынок облигаций, валютный рынок, товарный рынок, макроэкономические условия и технические индикаторы, не связанные с ценой, чтобы ввести их в модель СMM. После добавления процента акций Russell 3000 с ценами выше 50-дневной скользящей средней и индекса VIX, средняя доходность каждого государства соответствует нашим ожиданиям, как показано в таблице 2. Что еще более важно, таблица t-теста показывает, что средние значения волатильности между бычьим и медвежьим состояниями, а также статичным и медвежьим состояниями теперь значительно отличаются друг от друга на 95% доверительном уровне. Если взглянуть на стандартные значения волатильности, то мы обнаружим, что кластеризованный медвежий рынок имеет самую высокую волатильность среди трех состояний, а бычий рынок - самую низкую, что противоречит нашим ожиданиям.

Таблица 2: T-тест Таблица тестирования с новыми функциями
Таблица 2: T-тест Таблица тестирования с новыми функциями

Дальнейшая работа

Хотя Скрытая Марковская Модель может быть применена для определения текущего состояния рынка, мы не узнаем фактическое состояние до конца недели, поскольку модель использует недельные данные. Однако смена направления цены акций может произойти в любой день недели. Например, крах фондового рынка обычно сопровождается внезапным резким падением цен на акции. К тому времени, когда неделя будет классифицирована как "медвежья", мы уже можем понести значительные потери денег. Поэтому крайне важно прогнозировать состояние выхода СMM.

Machinelearning
Python/ django