Найти в Дзене
Дмитрий Торшин

Число инфицированных коронавирусом в Москве на 27 марта

Меня зовут Дмитрий. Я работаю главным специалистом по машинному обучению в страховой компании Альянс Жизнь. Ввиду того, что вся Москва на карантине, то я решил попробовать использовать разные методы машинного обучения для предсказания течения эпидемии. Начну с того, что это первая статья из серии, поэтому будут лишь простые прикидки. Утв 1. Москва относительно недавно стала заражаться, число заражённых составляет малый процент популяции. Предположительно, число заражений будет расти по экспоненте. Ввиду долгого инкубационного периода, принятые решения власти будут влиять на график с задержкой. Утв 2. Скорее всего, в ближашие 10 дней ситуация продолжит развиваться по экспоненциальному закону(затухания показателя экспоненты не будет, так как вирус потенциально может передаться очень многим, в силу того, что сейчас заражен минимальный процент популяции), поэтому единственное влияние на экспоненту будет оказывать начавшаяся неделю назад удалённая работа, которая была призвана замедлить

Меня зовут Дмитрий. Я работаю главным специалистом по машинному обучению в страховой компании Альянс Жизнь. Ввиду того, что вся Москва на карантине, то я решил попробовать использовать разные методы машинного обучения для предсказания течения эпидемии.

Начну с того, что это первая статья из серии, поэтому будут лишь простые прикидки.

Утв 1. Москва относительно недавно стала заражаться, число заражённых составляет малый процент популяции. Предположительно, число заражений будет расти по экспоненте. Ввиду долгого инкубационного периода, принятые решения власти будут влиять на график с задержкой.

Утв 2. Скорее всего, в ближашие 10 дней ситуация продолжит развиваться по экспоненциальному закону(затухания показателя экспоненты не будет, так как вирус потенциально может передаться очень многим, в силу того, что сейчас заражен минимальный процент популяции), поэтому единственное влияние на экспоненту будет оказывать начавшаяся неделю назад удалённая работа, которая была призвана замедлить темпы передачи вируса. Если эта мера сработала, через како-то время это отразится на графике.

Теперь про моделирование.

Данные я хотел получить с РосПотребНадзора, спарсив их сайт, однако, как оказалось, каждый день формат их релизов отличается от всех других(используюся другие теги, добавляются пробелы, слова и пр.) Поэтому я нашёл более удобный источник данных - Википедия(https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%BE%D1%81%D1%82%D1%80%D0%B0%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5_COVID-19_%D0%B2_%D0%A0%D0%BE%D1%81%D1%81%D0%B8%D0%B8)

Ничего сложного нет. Я использую стандартную линейную регрессию(где признаком является день), А чтобы правильно предсказать число инфицированных, использую логарифмическое проеборазование. Если добавить к обучающим данным ещё 10 суток, то мы сможем получить предсказание на 10 дней вперёд. Затем с помощью библиотеки plotly получаем красивую картнику(ещё бы она была радостной).

-2

На самом деле ввиду уже описанной выше икубационной задержки, 6000 - это уже реальное число инфицированных. Дальше всё будет зависеть от мер правительства и благоразумия горожан.

Завтра я хочу посмотреть на общемировую статистику и на то, как московская соотносется с ней.
Не болейте! И давайте поможем графику измениться :)