«Пандемия не закончилась!», «Коронавирус не вышел на плато!» - примерно такие заголовки можно было увидеть у статей, появившихся в ленте соц.сетей в июле. Речь в них шла о замере уровня пандемии, используя данные о занятости больничных коек и статистику поисковых запросов в Wordstat Yandex. Мне стало интересно, а можно ли обнаружить сенсацию, опираясь только на данные Wordstat?
Коротко о методологии. В поиске люди ищут то, что их волнует в данный момент. И таким образом можно сделать выводы о реальной ситуации. Отчасти это так и не так. Попробуем разобраться какие выводы возможны, а какие нет на примере коронавируса.
В качестве исследуемого региона я взял город Королёв. Город небольшой и я отлично представляю здесь реальную ситуацию. У меня есть небольшая выборка людей, у которых я знаю с точностью до дня появление симптомов Covid-19 вплоть до пневмонии. Это поможет ориентироваться в цифрах. Данных о занятости больничных коек в открытых источниках по Королёву нет, но даже если их найти, то они будут нерелевантны, так как по моим данным инфекционных больных везли в больницы других населённых пунктов, в частности, в Щелково. То есть эксперимент чистый, единственный источник с которым можно сравнить данные по пандемии - Wordstat.
Итак, начнём с очевидного запроса “анализ на коронавирус”:
Как видим, всплеск начинается в марте и спадает к середине апреля, потом резко вырастает и с конца мая начинает идти на спад.
Очень похож и график поисковых запросов по слову “covid”, хотя мартовский пик ниже и не так выражен:
Для сравнения посмотрим на график эпидемии Московской области по версии Yandex’а:
Видно, что число заражённых начинает расти с середины апреля с пиком в середине мая.
Посмотрим другой источник уже конкретно по Королёву, а именно virusmonitoring:
Видим первый всплеск 28-29 апреля и два больших всплеска 5 и 7 мая.
Спрашивается, где же всплеск в марте, который мы наблюдаем на графике Wordstat? Неужели от нас скрывали страшную правду в марте? Лично у меня это вызывает сомнение, так как заболевшие среди моего окружения чётко вписываются в диапазон дат на графике. Либо это конец апреля, либо май. Единственная логичная гипотеза на мой взгляд - информационное давление, что оказывалось на людей из-за пандемии в этот период. Информационный шум о ситуации в Италии и Испании как раз совпадает с этими датами.
Давайте посмотрим на графики симптомов. Начнём с симптома типичного именного для коронавируса «не чувствую запахи»:
Как видим, основной пик приходится на 9 мая, что хорошо коррелирует с графиками заражения. Подозрения вызывает небольшая флуктуация в сентябре 2019-го, поэтому имеет смысл посмотреть тот же график за 2 года:
Посмотрим теперь на запрос “пневмония”, которая может быть вызвана и другими причинами.
За год снова наблюдаем рост с марта с пиком в середине мая. Посмотрим на то же за два года:
Видим, что такого всплеска в апреле-мае прошлого года не было, рост запросов происходил с ноября по март.
Попробуем теперь посмотреть на запросы, связанные с лечением. Например, неизбежную при Covid’е диагностику «КТ-лёгких»:
Снова наблюдаем всплеск в мае, в данном случае 2 мая.
И для чистоты эксперимента смотрим за два года:
Как видим в 2019-ом году КТ-легких людей в апреле-мае не интересовало. Незначительный всплеск наблюдался лишь в ноябре-декабре.
Перейдём к запросам по лекарствам. Чтобы не смотреть все, быстро посмотрим на один, скажем, «арбидол»:
Видим резкий всплеск в марте, а дальше происходит спад. И такая картина по многим наименованиям. Как только в информационном поле появлялась информация про действенность конкретного наименования – мы видим всплеск.
Теперь болезненная тема скорой помощи, которая отказывалась ехать на вызов. К сожалению, в подобной ситуации оказались и знакомые мне люди в Королёве.
Максимальный всплеск наблюдается в апреле.
Посмотрим, что происходит с запросом «Не приходит врач»:
Здесь пик смещён в сторону мая, но тоже явно виден.
На обоих графиках видны всплески. Но можно ли сделать вывод, что это результат попыток намеренно скрыть эпидемию? Тогда откуда пики в феврале и октябре на втором графике? Чтобы разобраться, посмотрим на те же графики за два года:
На этих графиках мы видим всплески в ноябре и феврале 2019, , хотя и не такие большие как в апреле-мае 2020. К сожалению, не нашёл графики эпидемий гриппа и ОРВИ в Королёве, но нашёл график по Тульской области, что относительно недалеко. На нём видны номера недель года, на которые приходятся эпидемии гриппа и ОРВИ в последние годы:
Легко понять, что на ноябрь/декабрь и на февраль как раз обычно приходятся вспышки эпидемий гриппа или ОРВИ. В эти же месяцы наблюдаются всплески запросов «не приезжает скорая» и «не приходит врач». Единственная на мой взгляд рабочая гипотеза, что запаса прочности местного здравоохранения не хватает даже на обычную эпидемию гриппа, не говоря уж про пандемию.
Теперь самое интересное. Как получить сенсацию? Если просто просуммировать все запросы, связанные с эпидемией, то вместо выхода на плато, как на графике заболеваемости, можно увидеть огромный пик. Но суммировать-то как раз и нельзя! Если мы это сделаем, то проигнорируем тот факт, что все из рассмотренных выше запросов могли искать одни и те же люди. Например, один человек мог посмотреть разные марки лекарств, чтобы сравнить их между собой, он же ранее мог посмотреть симптомы, и он же мог искать что делать, если скорая не приехала, когда она реально не приехала. И Wordstat не поможет нам эти данные склеить. То есть, если мы хотим понять тренд, то нам нужно делать средневзвешенный график по всем запросам.
Напоследок главный вопрос, можем ли мы сделать вывод о реальной заболеваемости? По-моему, использовать для этого Wordstat странно. Если и есть здесь полезная информация, то это сравнение графиков роста количества заболевших и графики запросов, где мы можем вычленить результаты запросов от «информационной» пандемии и реальной пандемии заболевания.
Андрей Тельминов.