Найти в Дзене
Минус фунт

173. В какой день недели чаще всего диагностируют коронавирус

Давайте разберем по официальным данным, в какой день недели больше всего вероятно поступление заболевших коронавирусом. Цифры меняются каждый день, вначале они исчислялись единицами, потом десятками, наконец, сотнями и дошло до 11.656 на 11 мая 2020 года, после чего пошло на спад. Установить по графику (ниже, толстая синяя линия) какую-либо ритмичность невозможно. Когда-нибудь, через несколько лет, можно будет говорить о месячной и годичной зависимости, и установить длительные циклы, связанные с солнечной активностью, но, поскольку к данному времени мы располагаем данными начиная с 16 марта, говорить можно об установлении цикличности, согласно табличке выше, околонедельной.

-2

Чтобы установить цикличность данных, необходимо, прежде всего, установить наличие тренда и провести его линию, после чего вычесть тренд из данных.

Существуют различные методы обнаружения тренда, мы воспользуемся одним из наиболее подходящих исходя из структуры данных - экспоненциального роста на начальном участке, примерно до 3 мая. Тренд проведен оранжевой линией на рисунке выше.

Вычтем данные из тренда, результат ниже, зеленая линия, отсчет по левой вертикальной шкале.

-3

По данным явно прослеживается цикличность в несколько дней, смущает то, что в левой части размах циклов небольшой, в то время как в правой гораздо выше. Но ведь и число ежедневно заболевших непрерывно росло, росло и отклонение числа заболевших от тренда.

Может быть, отклонение пропорционально значению по тренду? Тогда примерно постоянно должно быть относительное отклонение в процентах, т.е. отклонение от тренда следует умножить на 100 и разделить на значение по тренду.

Эти значения вычислены, нанесены на общий график выше синей линией, отсчет по правой вертикальной шкале. Все с точностью до наоборот, слева значения непомерно большие, в правой части спадают, но цикличность сохраняется, притом пики и минимумы на тех же датах.

Из обработки данных следует, что при малости данных относительное отклонение гораздо выше, чем при больших значениях. Это одна из особенностей поведения случайных больших чисел, изучаемая в курсах математической статистики.

Поступление больных можно рассматривать как т.н. пуассоновский поток, названный так в честь французского математика, механика и физика 19-го века Симеона Дени Пуассона.

-4

Поток Пуассона – поток без последствий: вероятность появления случайного события (поступления больного, в нашем случае) не зависит от момента совершения предыдущих событий.

И, что замечательно, среднеквадратичное отклонение (обозначаемое обычно символом сигма) при потоке Пуассона равно корню квадратному из ожидаемого значения (в нашем случае - значение по тренду). Тогда мерой отклонения от ожидания должно служить не абсолютное отклонение (зеленая линия), не относительное (синяя линия), а отношение отклонения к корню квадратному из ожидаемого значения. Эти значения вычислены, и нанесены на отдельный график ниже.

-5

Отношение отклонения к корню квадратному из ожидаемого значения носит название z-оценки. Зет-оценками пользуются врачи для описания характеристик пациентов с учетом их неоднородности, педиатры для оценки физического развития ребенка.

На рисунке выше отклонения и приведены в зет-оценках, левая вертикальная шкала. При сравнении с прежним рисунком видно, что размах колебания практически уравнялся в левой и правой части шкалы, чего мы и добивались, с этими данными можно теперь работать дальше.

Данные идут в основном в полосе шириной +/- 5 z-оценок, и для периода с 19 апреля по 3 мая характерны несколько запредельных выбросов как вверх, так и вниз, но то был неоднозначный период, с чередой нарушений режима самоизоляции и праздниками, церковными и государственными.

Не следует ожидать, что пики и минимумы будут идти строго периодически, на предполагаемую недельную цикличность может накладываться лунный цикл и, как писалось выше, нарушения режима и праздники, которые не вписываются в недельный цикл ввиду связанных с ними передвижками рабочих и праздничных дней.

Выявить цикличность помогает т.н. автокорреляция - данные сравниваются сначала сами с собой (тогда совпадение полное), затем с собой, но со сдигом на 1 день, 2 дня, и т.д. При наличии цикличности вначале совпадение (оцениваемое т.н. коэффициентом корреляции Пирсона, по имени английского математика Чарльза Пирсона) будет все меньше, затем коэффициент станет отрицательным (т.е. данные пойдут "наоборот" - рост основного ряда сопровождается уменьшением сдвинутого), и наконец снова положительным, с некоторым пиковым значением, и дальнейшим спадом.

-6

Положительный пик и означает, что раз сдвинутые значения стали опять "похожи" на основные, величина сдвига сравнялась с периодом циклического процесса. Ниже график коэффициента корреляции Пирсона.

-7

Из графика достоверно следует, что динамика заболеваемости характеризуется цикличностью в 7 дней (пик положительного значения на 7-й день, желтый маркер), а минимум примерно посередине, на 3-й день, что подкрепляется следующим минимумом еще через неделю на 10-й день (два голубых маркера).

Осталось только оценить посредством усреднения по 10 неделям величину отклонения в каждый из дней недели в z-оценках, и определить, на какие дни недели приходятся максимальные отклонения вверх и вниз от тренда. Значения нормализованы так, чтобы сумма по дням недели равнялась 0.

-8

На всех рисунках значения приведены на дату объявления значений, которые объявляются после 10.00 мск времени следующего дня.

И лишь на гистограмме выше столбики построены по дням недели, на которые они приходятся. Неукоснительно следует, что наплыв заболевших приходится на субботу, это предположительно те, кто заразился в предыдущее воскресенье.

Минимум - во вторник, по величине вторничный дефицит полностью компенсирует субботний наплыв. Очевидно, россияне меньше всего заражаются в среду.

В остальные дни недели отклонения от тренда не превышают +/- 0,7 сигм, их можно считать незначимыми.

Наука
7 млн интересуются