Распространении пандемии коронавируса в мире уже на протяжении 5 месяцев позволяет путем обработки статистики выявить присущую заболеванию цикличность. Наиболее значимым является недельный цикл, связанный с культурно-хозяйственным недельным циклом человека. С этим циклом связаны работа, отдых и занятия спортом большинства людей.
В одной из наших недавних статей мы проанализировали данные по смертности в США от коронавируса, и выяснили, что смертность подвержена недельному циклу, с максимумом смертей в четверг и минимумом в понедельник.
Далее, обработаны данные по смертности от коронавируса в Италии, где эпидемия пошла на явный спад. Максимум смертей приходится на пятницу и субботу, минимум на воскресенье и понедельник.
Смертность в мире - это, по сути сумма множества отдельных закономерностей по ряду стран, с различным укладом жизни, оттого неудивительно, что зависимость оказывается "размазанной" по ряду дней, так давайте просмотрим ее.
Ниже график числа ежедневных смертей в мире в зависимости от даты, количество смертей в день - синяя линия.
На данном графике нет характерного для аналогичного графика по США (статья по ссылке выше) пика смертности 16 апреля, тем самым пик по США нельзя объяснить каким-либо космическим явлением, проявившимся по всей Земле.
Попытаемся выявить цикличность (если она есть) пиков и провалов на графике. Первым делом выявляем тренд зависимости, и поскольку недельный цикл таки предполагается, усредняем данные нахождением среднего геометрического с окном в 7 значений. Эти данные нанесены на график выше зеленой линией. Видно, что линия достаточно гладкая.
Вычтем из фактических значений сглаженные значения, график ниже, синяя линия, отсчет по левой вертикальной шкале.
Видно, что значения возрастают слева направо, работать напрямую с этими данными невозможно, поскольку левая часть графика не будет учтена.
Вычислим относительные значения отклонения, разделив абсолютные отклонения на значения тренда, в процентах. Красная линия, отсчет по правой вертикальной шкале.
Данные более однородные, с ними можно работать. При этом, как видно по графику выше, обработка данных для их выравнивания расположения пиков и минимумов не меняет, как и последующих выводов о наличии цикличности.
Чтобы выявить цикличность по данным, необходимо подвергнуть их автокорреляции. Корреляция, характеризуемая особым коэффициентом корреляции (вычисляемым, например, в Excel), показывает, насколько два ряда данных "похожи" один на другой.
Если сравнивать один и тот же ряд с самим собой, но смещенным на 0, 1, 2 и т.д. дней, то, если ряд характеризуется цикличностью, коэффициент корреляции будет положительным и большИм при смещении на период цикла, и отрицательным при "непохожести", когда значения изменяются в разные стороны.
Ниже такой график по приведенным выше данным при смещении от 0 до 15 дней.
При смещении 0 ряд полностью схож с самим собой, но "похожесть" наблюдается и при смещении на 7 и 14 дней, а максимальная непохожесть при смещении на 3 и 11 дней. Вывод однозначен - смертность от коронавируса в мире в целом циклична с периодом 7 дней, т.е. зависит от дня недели, в какой-то из дней максимальна, а через 3-4 дня существенно снижается, после чего вновь растет.
Найдем средние арифметические значения относительных отклонений числа умерших от тренда по дням недели, всего по 18 полным неделям. При этом относительные отклонения учитываются с весом, пропорциональным модулю отклонения от тренда, поскольку в силу законов математической статистики эти значения, рассматриваемые как случайные, тем надежнее, чем выше их абсолютное значение. Гистограмма ниже.
Можно сделать вывод, что число смертей минимально в сравнении с трендом по понедельникам и максимально по средам, с плавным уменьшением в четверг и пятницу.
Проверим это визуально. Еще раз построим график числа смертей по датам, но изменим оцифровку шкалы дней, присвоив 0 среде 29 января, проведя основные деления через 7, а промежуточные через 1 день, и проведя вертикальные линии сетки через основные деления.
Визуально обнаруживается странное явление - пики смертности визуально соответствуют средам(это вертикальные линии сетки), или располагаются чуть правее (по гистограмме выше отклонения в четверг незначительно меньше отклонений в среду) лишь с отметки, соответствующей 63, а это среда 1 апреля.
Т.е. данные по февралю и марту, при еще малом количестве заболевших и смертей, выпадают из сложившейся в апреле-мае тенденции, и лишь зашумливают интересующий нас результат, тем самым их следует исключить из обработки.
Обработанные данные по апрелю-маю ниже.
Поскольку данные очистились от шума, несколько возросли отклонения по модулю, максимум по прежнему приходится на среду, минимум на понедельник. Также, минимально число смертей в предшествующее понедельнику воскресенье.
Данные по миру качественно больше всего совпадают с данными по США, где также минимум смертей в понедельник, а максимум в четверг. С Италией общее то, что минимумы приходятся на понедельник и воскресенье.
Разумеется, в данные по миру входят и данные по США и Италии, они "растворены" в общих данных. На сегодняшний день на США приходится 28% всех смертей в мире, а на Италию 8%. Оказать решающего влияния не выявленные зависимости по миру эти 2 страны не могут, за данными лежат какие-то общие тренды, связанные с общемировыми недельными циклами.