Найти тему
Андрей Тельминов

Можно ли обнаружить сенсацию в статистике Wordstat Yandex?

«Пандемия не закончилась!», «Коронавирус не вышел на плато!» - примерно такие заголовки можно было увидеть у статей, появившихся в ленте соц.сетей в июле. Речь в них шла о замере уровня пандемии, используя данные о занятости больничных коек и статистику поисковых запросов в Wordstat Yandex. Мне стало интересно, а можно ли обнаружить сенсацию, опираясь только на данные Wordstat?

Коротко о методологии. В поиске люди ищут то, что их волнует в данный момент. И таким образом можно сделать выводы о реальной ситуации. Отчасти это так и не так. Попробуем разобраться какие выводы возможны, а какие нет на примере коронавируса.

В качестве исследуемого региона я взял город Королёв. Город небольшой и я отлично представляю здесь реальную ситуацию. У меня есть небольшая выборка людей, у которых я знаю с точностью до дня появление симптомов Covid-19 вплоть до пневмонии. Это поможет ориентироваться в цифрах. Данных о занятости больничных коек в открытых источниках по Королёву нет, но даже если их найти, то они будут нерелевантны, так как по моим данным инфекционных больных везли в больницы других населённых пунктов, в частности, в Щелково. То есть эксперимент чистый, единственный источник с которым можно сравнить данные по пандемии - Wordstat.

Итак, начнём с очевидного запроса “анализ на коронавирус”:

Данные Wordstat.Yandex по поисковым запросам "анализ на короновирус" в городе Королёв.
Данные Wordstat.Yandex по поисковым запросам "анализ на короновирус" в городе Королёв.

Как видим, всплеск начинается в марте и спадает к середине апреля, потом резко вырастает и с конца мая начинает идти на спад.

Очень похож и график поисковых запросов по слову “covid”, хотя мартовский пик ниже и не так выражен:

Данные Wordstat.Yandex по поисковым запросам "covid" в городе Королёв.
Данные Wordstat.Yandex по поисковым запросам "covid" в городе Королёв.

Для сравнения посмотрим на график эпидемии Московской области по версии Yandex’а:

График заражений по данным Yandex.
График заражений по данным Yandex.

Видно, что число заражённых начинает расти с середины апреля с пиком в середине мая.

Посмотрим другой источник уже конкретно по Королёву, а именно virusmonitoring:

График заражений по данным Virusmonitoring
График заражений по данным Virusmonitoring

Видим первый всплеск 28-29 апреля и два больших всплеска 5 и 7 мая.

Спрашивается, где же всплеск в марте, который мы наблюдаем на графике Wordstat? Неужели от нас скрывали страшную правду в марте? Лично у меня это вызывает сомнение, так как заболевшие среди моего окружения чётко вписываются в диапазон дат на графике. Либо это конец апреля, либо май. Единственная логичная гипотеза на мой взгляд - информационное давление, что оказывалось на людей из-за пандемии в этот период. Информационный шум о ситуации в Италии и Испании как раз совпадает с этими датами.

Давайте посмотрим на графики симптомов. Начнём с симптома типичного именного для коронавируса «не чувствую запахи»:

Данные Wordstat.Yandex по поисковым запросам "не чувствую запахи" по неделям в городе Королёве.
Данные Wordstat.Yandex по поисковым запросам "не чувствую запахи" по неделям в городе Королёве.

Как видим, основной пик приходится на 9 мая, что хорошо коррелирует с графиками заражения. Подозрения вызывает небольшая флуктуация в сентябре 2019-го, поэтому имеет смысл посмотреть тот же график за 2 года:

Данные Wordstat.Yandex по поисковым запросам "не чувствую запахи" по месяцам в городе Королёве.
Данные Wordstat.Yandex по поисковым запросам "не чувствую запахи" по месяцам в городе Королёве.

Посмотрим теперь на запрос “пневмония”, которая может быть вызвана и другими причинами.

Данные Wordstat.Yandex по поисковым запросам "пневмония" по неделям в городе Королёв.
Данные Wordstat.Yandex по поисковым запросам "пневмония" по неделям в городе Королёв.

За год снова наблюдаем рост с марта с пиком в середине мая. Посмотрим на то же за два года:

Данные Wordstat.Yandex по поисковым запросам "пневмония" по месяцам в городе Королёв.
Данные Wordstat.Yandex по поисковым запросам "пневмония" по месяцам в городе Королёв.

Видим, что такого всплеска в апреле-мае прошлого года не было, рост запросов происходил с ноября по март.

Попробуем теперь посмотреть на запросы, связанные с лечением. Например, неизбежную при Covid’е диагностику «КТ-лёгких»:

Данные Wordstat.Yandex по поисковым запросам "кт-лёгких" по неделям в городе Королёв.
Данные Wordstat.Yandex по поисковым запросам "кт-лёгких" по неделям в городе Королёв.

Снова наблюдаем всплеск в мае, в данном случае 2 мая.

И для чистоты эксперимента смотрим за два года:

Данные Wordstat.Yandex по поисковым запросам "кт-лёгких" по месяцам в городе Королёв.
Данные Wordstat.Yandex по поисковым запросам "кт-лёгких" по месяцам в городе Королёв.

Как видим в 2019-ом году КТ-легких людей в апреле-мае не интересовало. Незначительный всплеск наблюдался лишь в ноябре-декабре.

Перейдём к запросам по лекарствам. Чтобы не смотреть все, быстро посмотрим на один, скажем, «арбидол»:

Данные Wordstat.Yandex по поисковым запросам "арбидол" в городе Королёв.
Данные Wordstat.Yandex по поисковым запросам "арбидол" в городе Королёв.

Видим резкий всплеск в марте, а дальше происходит спад. И такая картина по многим наименованиям. Как только в информационном поле появлялась информация про действенность конкретного наименования – мы видим всплеск.

Теперь болезненная тема скорой помощи, которая отказывалась ехать на вызов. К сожалению, в подобной ситуации оказались и знакомые мне люди в Королёве.

Данные Wordstat.Yandex по поисковым запросам "не приезжает скорая" по неделям в городе Королёв.
Данные Wordstat.Yandex по поисковым запросам "не приезжает скорая" по неделям в городе Королёв.

Максимальный всплеск наблюдается в апреле.

Посмотрим, что происходит с запросом «Не приходит врач»:

Данные Wordstat.Yandex по поисковым запросам "не приходит врач" по неделям в городе Королёв.
Данные Wordstat.Yandex по поисковым запросам "не приходит врач" по неделям в городе Королёв.

Здесь пик смещён в сторону мая, но тоже явно виден.

На обоих графиках видны всплески. Но можно ли сделать вывод, что это результат попыток намеренно скрыть эпидемию? Тогда откуда пики в феврале и октябре на втором графике? Чтобы разобраться, посмотрим на те же графики за два года:

Данные Wordstat.Yandex по поисковым запросам "не приезжает скорая" по месяцам в городе Королёв.
Данные Wordstat.Yandex по поисковым запросам "не приезжает скорая" по месяцам в городе Королёв.
Данные Wordstat.Yandex по поисковым запросам "не приходит врач" по месяцам в городе Королёв.
Данные Wordstat.Yandex по поисковым запросам "не приходит врач" по месяцам в городе Королёв.

На этих графиках мы видим всплески в ноябре и феврале 2019, , хотя и не такие большие как в апреле-мае 2020. К сожалению, не нашёл графики эпидемий гриппа и ОРВИ в Королёве, но нашёл график по Тульской области, что относительно недалеко. На нём видны номера недель года, на которые приходятся эпидемии гриппа и ОРВИ в последние годы:

Динамика заболеваемости ОРВИ в 2014-2015 в Тульской области.
Динамика заболеваемости ОРВИ в 2014-2015 в Тульской области.

Легко понять, что на ноябрь/декабрь и на февраль как раз обычно приходятся вспышки эпидемий гриппа или ОРВИ. В эти же месяцы наблюдаются всплески запросов «не приезжает скорая» и «не приходит врач». Единственная на мой взгляд рабочая гипотеза, что запаса прочности местного здравоохранения не хватает даже на обычную эпидемию гриппа, не говоря уж про пандемию.

Теперь самое интересное. Как получить сенсацию? Если просто просуммировать все запросы, связанные с эпидемией, то вместо выхода на плато, как на графике заболеваемости, можно увидеть огромный пик. Но суммировать-то как раз и нельзя! Если мы это сделаем, то проигнорируем тот факт, что все из рассмотренных выше запросов могли искать одни и те же люди. Например, один человек мог посмотреть разные марки лекарств, чтобы сравнить их между собой, он же ранее мог посмотреть симптомы, и он же мог искать что делать, если скорая не приехала, когда она реально не приехала. И Wordstat не поможет нам эти данные склеить. То есть, если мы хотим понять тренд, то нам нужно делать средневзвешенный график по всем запросам.

Напоследок главный вопрос, можем ли мы сделать вывод о реальной заболеваемости? По-моему, использовать для этого Wordstat странно. Если и есть здесь полезная информация, то это сравнение графиков роста количества заболевших и графики запросов, где мы можем вычленить результаты запросов от «информационной» пандемии и реальной пандемии заболевания.

Андрей Тельминов.

-18