В первой и второй частях этого цикла статей мы с вами поговорили о том иногда вдумчивому опционеру очень хочется иметь свою собственную исследовательскую модель, используя которую можно быстро и наглядно взглянуть на некоторые моменты торговли опционами и деривативами не привлекая при этом внимания профессиональных участников рынка. Был разобран вопрос как подобрать минимально целесообразную частоту дискретизации для построения модели поведения БА.
А в этой статье я вам расскажу, как я получал данные, что я обнаружил получив их и что с этими полученными данными я сделал.
Моя коллекция тиковых данных биржевых криптовалют не носила системный характер и представляла из себя эпизодические временные куски на ВСТ и ЕТН, ну и с прошлого года на MATIC и DOGE.
И использовать эти данные в получении устраивающих меня графиков за достаточно длинные промежутки времени я не мог. Ну раз своих данных нет, значит нужно их откуда-то взять. Откуда взять есть, но в каком формате забирать?
Снова тянуть тики и подшивать их в свои данные латая ими недостачи и пропуски не хотелось, и поэтому я решил выгрузить данные сразу в формате рендж баров высотой совпадающей с выбранными мной частотами дискретизации для четырех интересующих меня активов.
Данные я выгружал не непосредственно с бирж, а от поставщика данных.
Получив данные, я просто обязан был провести входной контроль их качества. И что я обнаружил?
Данные не имели целостный характер и не всегда высота рендж бара соответствовала заданному мной значению. Высоты рендж баров «плавали» не сильно, а вот пропуски (ценовые разрывы между рендж барами) меня «напрягли» куда как больше.
И хоть в сравнении с общим количеством таких низкокачественных данных было не так уж и много (менее 5% от общего числа), с этим нужно было что-то делать.
Сначала я предположил, что тот поставщик у кого я эти данные беру «гонит туфту» и воспользовался другим поставщиком, более качественным. К моему удивлению проблема с пропуском данных наблюдалась и там, сопоставив те и другие данные я выяснил – пропуски находились в одних и тех же местах, и эти места приходились на моменты экстремально быстрых рыночных движений цен криптоактивов.
Этот факт позволил мне предположить, что в такие моменты непосредственно биржа не справлялась с экспортом данных и давала плохую трансляцию тиков во внешние сервисы.
В этой ситуации продолжать искать данные более высокого качества было бессмысленно, но и оставлять данные такими как есть не хотелось.
Поэтому я решил данные исправить, выровняв высоту ренджбаров и заполнив пропуски цен между ними.
Выравнивал высоту ренджбаров я следующим образом: в том случае если высота рендж бара отличалась от заданной мной я определял центр существующего, но не устраивающего меня бара, и в зависимости от того больше он или меньше прибавлял/отнимал от значений Хай/Лоу таким образом что бы модифицированная высота бара была равна изначально заданной.
С ценовыми разрывами между рендж барами я тоже особо не мудрствовал, обнаружив такой разрыв я просто на просто заполнял его программным модулем синтезированными ренджбарами так что бы его закрыть линейно интерполируя движение цены в разрыве. Закрывал разрывы синтетическими барами я без того, что бы соседние бары перекрывали значения друг друга. При движении цены актива вверх Лоу следующего бара равнялась Хаю бара предыдущего, при движении цены вниз – наоборот. Учитывая, что разрывы наблюдались мною в период быстрых движений цены, и их было относительно не много, думаю сделанное мною допущение вполне справедливо и общую картину не исказило никак.
Ну и в итоге я получил четыре набора данных (по числу торгуемых на бирже АЕ деривативов на индексы криптовалют) которые включали в себя «причесанные» временные ряды из рендж баров продолжительностью более 2 лет каждый.
И тут я натолкнулся на неожиданную проблему. Изначально я предполагал хранить данные в Экселе. Но в первые, в моей, достаточно долгой жизни, мне перестало хватать количества строк в этой прекрасной программе… 😊 Дожили, что называется.
Но и эту проблему удалось преодолеть буквально ходом.
Вся эта работа велась в клубе Опцион LAFT и ее результаты публиковались там-же, ссылки на скачивание датасетов находятся в канале клуба.
В следующей статье, которая выйдет уже завтра, я расскажу вам как я исследовал вероятностные характеристики полученных мной цен, и что при этом обнаружил.
А для чего я их исследовал, я думаю вы уже догадались, но это будет материалом уже 5 статьи, которая выйдет послезавтра.
Жду от вас интересностей для конструктивного обсуждения.
Следите за публикациями.