Найти тему
Минус фунт

190. Коронавирус, Китай, Ухань

Данная статья, как и предыдущая "Коронавирус, Швеция", вспомогательная, чтобы подвести к запланированной статье про особый путь России, средний между Китаем и Швецией.

Итак, ниже статистика по ежедневно заболевшим по первой волне эпидемии, еще не признанной ВОЗ пандемией, по городу Уханю и провинции Хубэй. Как известно, китайский путь - это классика жанра, что и позволяет исследовать процесс в "чистом" виде. Город и провинция были изолированы, инфекция не перекинулась на прочие города и провинции, и инфекция была подавлена в зародыше.

Дальнейшие события а Китае, когда отдельные вспышки фиксируются в отдельных местах, нас мало интересуют к данному моменту. График ниже.

-2

Необычайно высокое значение 14.108 за 12 февраля и последующее 5.090 на следующий день явно выпадают из общей тенденции, где максимальное значение числа заболевших 3.844 фиксируется 4 февраля, и никогда более не превышается, более-менее равномерно спадая влево-вправо.

Два отмеченных значения в теории статистики принято считать выпадающими. Ниже цитата из статьи института Эрисмана, т.е. речь идет не о каких-то отстраненных данных, а именно о результатах обмера человеческой популяции.

Прежде чем вычислять те или иные обобщенные характеристики данных медико-гигиенических исследований (среднее, дисперсию и т.п.), необходимо проверить имеющуюся совокупность данных на наличие выпадающих значений. Выпадающие значения обусловлены либо методическими ошибками в ходе выполнения измерений, либо наличием в изучаемой совокупности объектов, обладающих особыми свойствами, которые резко отличаются от свойств большинства других объектов. В обоих случаях выпадающие значения должны быть обнаружены и принято решение о возможности их дальнейшего использования.

Выпадающие значения можно счесть ошибочными, и исключить их из рассмотрения, но поскольку за этими значениями стоят какие-то артефакты, порожденные методикой подсчета, но эти люди - реально заболевшие, а, как следует ниже, данные мы будем сглаживать для устранения недельного цикла, имеет смысл "разбросать" эти данные по соседним значениям. Как покажем в самом конце статьи, это не изменит качественно сделанных выводов, ради которых и анализируются данные и пишется статья, а лишь уточнит сделанные выводы.

Слева от 2 выпадающих значений число заболевших 2.015, а справа 2.641. Среднее (2015+2641)/2=2.328. Сумма 2 выпавших значений (14.108+5.090)=19.198, над удвоенным 2.328 превышение 19.198-2*2.328=14.542.

Разбросаем эти "избыточные" 14.542 числа заболевших от пика 4 февраля до конца распределения пропорционально фактическим данным. Тем самым мы не потеряем эти значения, устраним влияние артефактов, сохраним вычищенные от выпадающих значений тенденции, и все особенности графика. Ниже график.

-3

Исправленные данные (синяя линия) сглажены с окном 7 (для исключения недельного цикла и выявления тренда), результат зеленой линией.

А далее попытка описания сглаженной зависимости теоретической, что только и позволяет делать прогноз в случае незавершенности процесса. В контролируемых лабораторных условиях эпидемический процесс следует логистической зависимости, которая имеет характерную колоколообразную симметричную форму.

Зависимость по Китаю и выбрана в качестве иллюстрации, как наиболее отвечающая классике ввиду предпринятых властями экстраординарных мер по локализации и ограничению эпидемии, и высокой дисциплине населения по следованию этим мерам.

На графике видно, что фактически, по значимым уровням числа заболевших на уровне в день на уровне нескольких сотен, эпидемия проявлялась на протяжении всего 40 дней, что и породило у правительств прочих государств, у которых все еще было впереди, иллюзии определенного рода. По факту, все определилось неучтенным человеческим фактором, а в условиях России еще и огромной территорией.

Проведена зависимость, аппроксимирующая тренд одной логистой, по классике (красная линия). Совпадение приемлемое, базовый коэффициент репродукции ~1,8; что и отвечает базовому коэффициенту репродукции коронавируса в обычных условиях. В Швеции, если заглянуть в соответствующую статью, это коэффициент равнялся всего 1,3 - шведы очень сдержанные в общении люди, и заражали друг друга не так интенсивно.

Но график наводит на размышления. Красная линия хорошо совпадает с зеленой в обоих сторонах графика, для этого мы и выбрали среди многих вариантов Китай, как классику. Но вот пик красной линии смещен вправо от пика синей линии, поскольку в фактических условиях распределение не всегда симметричное.

В прочих, не вполне идеальных условиях, эпидемия спадает медленнее, чем нарастает, что можно хорошо видеть на примере Германии. Чтобы показать это, до статьи о России мы разместим еще и статью по Германии, для полноты картины.

По сути, мы можем моделировать единый процесс 2 процессами, квази независимыми, и просуммировать их. По факту, связь всегда есть, но модель есть модель, и действительность она отражает всегда с какой-то степенью достоверности. Если 2 области мало связаны, либо введены карантинные ограничения, модель с 2 логистами работает вполне хорошо.

Пример с Китаем приведен для того, чтобы продемонстрировать возможность хорошего моделирования распространения эпидемии одной логистой. По Германии же мы покажем, что в общем случае, когда спад более медленный, чем рост, необходимы 2 логисты.

В заключение моделирование по Китаю "в лоб", по фактическим данным без сглаживания и устранения выпадающих значений.

-4

Как видим, и в этом случае все сложилось удачно - логиста хорошо отразила левый и правый хвосты распределения, и даже раскидала влево-вправо 2 выпавших значения, что выше мы сделали сами вполне осознанно.

Итак, ждем статью по Германии, после чего переходим к самому сложному случаю - России, который не подпадает ни под один из ранее рассмотренных.

Наука
7 млн интересуются