Данная статья написана более года назад для моего сайта. Полагаю, она может быть интересна подписчикам моего канала, поэтому публикую её здесь.
Кстати, это отличная возможность оценить прогнозы аналитиков постфактум.
Ну что ж, начинаем погружаться в дебри прогнозирования.
В данной статье я остановлюсь на иллюзиях в прогнозировании. Тем более — есть наглядные графики, которые позволяют показать весь масштаб проблематики, которая стоит перед прогнозистами.
Сперва прошу взглянуть на график, который был любезно предоставлен Институтом Джона Хоппкинса — один из старейших исследовательских университетов в Западном полушарии, известный сильной подготовкой специалистов в области медицины, химии, биологии и права.
На графике отражена ежедневная динамика количества инфицированных COVID-19 в России в самом начале пандемии:
Далее взгляните на второй график, уже с данными по Москве, который был любезно предоставлен одним прогнозистом, грамотным математиком, с которым я познакомился в одном из профессиональных чатов Telegram:
Согласитесь, похожи!
Что не удивительно. Эпидемия началась с Москвы и первое время максимальный прирост инфицированных был именно в столице России.
Отличие графиков лишь в том, что второй содержит дополнительную аналитику. На основании известных данных (синие столбики) была построена модель (красная кривая), согласно которой можно с высокой долей вероятности сказать, что мы имеем дело с классическим распределением Гаусса, что описывается одноименным “колоколом”. Т.е. прогнозист выдвинул гипотезу, что заболеваемость может быть описана законом нормального распределения.
У графиков есть нечто общее, как и у всех эпидемий:
период стремительного роста, “плато”, постепенное угасание. Хотя если копнуть глубже в вирусологию, общего там может быть как раз мало, потому что эпидемия развивается в каждой локации совершенно по разному, на что влияют множество факторов: демография, меры, предпринимаемые правительством, плотность населения, заразность вируса, характер распространения вируса и т.д.
Так вот возвращаясь к графикам: как только люди видят колокол Гаусса, многие мысленно начинают аплодировать — какая великолепная аналитика, вот это да, мы тоже так хотим научиться прогнозировать! Хотя ценность подобной аналитики стремится к нулю. В данной модели не учтено ничего, кроме ряда данных. И я скажу более — практически невозможно было учесть ключевые данные, потому что они скрыты от нас политикой…
Сейчас легко проверить данные по России — на момент написания статьи график выглядит так:
Стрелкой я указал на окончание первого графика этой статьи. Как видно — никакого колокола Гаусса в итоге не получилось!
И никакой адекватной модели построить тут невозможно.
Количество инфицированных хорошо коррелируется с количеством проведенных тестирование населения. А на данном графике мы не обладаем данной информацией, хотя постфактум знаем — тестов в правой части графика проводилось гораздо больше, чем в левой.
Также на графике видна еще одна закономерность — некое ограничение системы. Скорее даже искусственное, но все же ограничение. Уж больно ровно идет инфицирование населения. Совершенно непонятно, что было бы, если тестов завезли в 2 раза больше?
К чему это я? К тому, что для построения правильного прогноза мало обладать лишь рядом данных (будь то продажи, возвраты и прочее). Нужно больше данных. И навыков, как оперировать этим массивом.
Хотя биржевые аналитики успешно справляются с этим и ежедневно выпускают ботов-трейдеров, которые учитывают определенный набор данных для принятия решения купить/продать акции. Но все это делается, в основном, в краткосрочно-среднесрочной перспективе.
Рекомендация в случае наличия такого рода неопределенностей:
Сокращать горизонт прогнозирования и увеличивать периодичность построения прогноза.
На втором графике было достаточно точно предсказано количество инфицированных на следующий день. Но с горизонтом в неделю — ошибка прогноза была уже сильно высока.
Мораль: перед прогнозирование нужно понять, какие факторы влияют и/или будут влиять в будущем, как мы можем их оцифровать и применить в своей модели (которую нужно еще подобрать), какой горизонт планирования выбрать и как часто пересматривать свой прогноз. Ну и как же без оценки точности своего прогноза. Но об этом более подробно напишу в следующих статьях.
P.S. На момент написания статьи не было известно ни о второй-третьей-четвертой волнах пандемии. Что, естественно, еще раз доказывает, что вся эта диванная аналитика прогнозистов, в большинстве своем, бесполезная вещь.