Для анализа данных ученые обычно проделывают довольно длительный путь поиска этих самых данных. Нельзя взять среднюю температуру по больнице и представить ее как показатель успешной работы. Когда мы говорим о данных, всегда надо знать как они получены и каким образом обработаны. Да. Есть случаи статистической обработки, когда это не важно. Например нормальное распределение всегда таким остается. Это статистической свойство вселенной, и вселенная пока не явила нам исключений из него. Другое же дело когда мы собираем данные сами и их не много.
Обычно ученые тщательно планируют эксперимент для того чтобы получить эти самые данные. Но что делать если у нас есть информация постфактум, как например в случае с Covid-19? Как понять сколько людей переносит его бессимптомно, сколько требуют стационарного лечения, сколько летальных случаев в действительности? Ведь если мы начнем учитывать только тех, кто попал в больницы в тяжелом состоянии и умер, мы получим очень завышенную оценку показателя смертности, т.к. не учтем тех, кто перенес заболевание на ногах. Было бы идеальным случаем поместить какое то сообщество в изолированную среду вместе с носителями вируса и посмотреть что из этого получится. Но такой эксперимент вряд ли кто-то позволит провести. Но бывают случайности, которые помогают нам в исследованиях.
И с Covid-19 у нас такая случайность есть ...
Diamond Princess
20-го января 80-ти летний пассажир взошел на борт круизного корабля Diamond Princess в Йокогаме, проплыл в нем один сегмент круиза и сошел в Гонконге. Он посетил больницу Гонконга шестью днями позже, где у него обнаружили положительные тесты на Covid-19. В следующем отрезке круиза, 4-го февраля, когда судно находилось в водах Японии, еще у 10-ти пассажиров был обнаружен Covid-19. Корабль был поставлен на карантин 4-го февраля в порту Йокогамы.
На 25-е марта из 3711 человек на борту у 712(19%) был обнаружен Covid-19. Из них 331(46,5%) были бессимптомными. 37(9,1%) потребовалась интенсивная терапия, 9(1,26% зараженных) умерли. Все это при условии того что медианный возраст пассажиров был 76 лет.
Diamond Princess по сути оказался идеальной чашкой Петри для эксперимента. Сбежать с корабля было не возможно. Хоть пассажиры, у которых оказался положительный тест на Covid-19, и были изолированы, оказалось невозможным изолировать команду контактировавушую с ними и продолжавшую выполнять свои функции. Получается что так или иначе воздействию инфекции подверглись все, кто находился на корабле.
Далее мы посмотрим кто там был, кто в итоге заразился, кто выжил и какие выводы можно из этого всего сделать. Оставайтесь - будет интересно.
Кто был на корабле
Как я уже сказал, общая температура по больнице нас мало интересует. По этому нам надо как то разделить данные на группы. Критерием разделения нам подойдет возраст. Т.к. Хорошо известно что разные возрастные группы по разному переносят заболевания дыхательных путей. Вот например графики смертности для гриппа и пневмонии по США.
Из графика понятно что рост смертности растет экспоненциально в зависимости от возраста.
Я нашел данные по Diamond Princess разделенные по возрастам. Границы проведены несколько по другому и это еще доставит неудобства в исследовании, но других нет. По этому привожу график как есть. На графике цветные области показывают количество пассажиров в группе, а заштрихованные количество жителей США в этой же возрастной группе.
Хорошо видно, что распределение возрастов сильно смещено в сторону пожилого возраста по сравнению с возрастами в США. Что и ожидалось - круизы в основном это развлечение пожилых людей. В области анализа данных про такую выборку говорят что она требует нормализации в исследуемой области. И в чистом виде данные полученные из нее нельзя применять на всю популяцию. Для того чтобы понять какая смертность будет в итоге на более молодой популяции, нужно вносить поправки.
Как много в итоге НЕ заразилось
Что же у нас с теми кто НЕ заразился? Это довольно большая группа. Если быть точными, это 82% людей находившихся на судне. Ниже показано распределение этой группы по возрастам.
Здесь мы видим еще два интересных факта:
1. Низкий уровень заражаемости (83% не заразились). В случае такого заболевания как Корь, было бы все наоборот.
2. Заражаемость мало зависит от возраста. Люди в самой пожилой группе на три четверти оказались здоровы, а люди в возрасте 60-69 лет более здоровы, чем тинэйджеры.
Может ли Covid-19 не иметь симптомов
Это у нас сама интересная группа с точки зрения исследования. Дело в том, что она очень сильно влияют на показатель смертности (Case Fatality Rate или CFR), которым нас пугают. Чем больше мы выявим бессимптомных, тем он ниже. Потому что CFR считается делением количества фатальных случаев на общее. И как оказывается бессимптомных - примерно половина. Как такое страшное заболевание может протекать бессимптомно это уже другой вопрос.
Хорошо видно что люди молодого и среднего возрастов имеют симптомы чаще чем люди пожилого возраста. Но в то же время 7 умерших оказались в возрасте старше 70-ти лет. Т.е. болезнь у старшей возрастной группы протекает бессимптомно, но в то же время смертность в ней больше. Это наводит на мысль что смертность не связана с Covid-19, а связано с чем то другим. Сейчас попробуем выяснить с чем.
Что же со смертностью
Для начала объясню мою идею на пальцах.
Сами по себе статистические данные обычно бесполезны. Если бы у нас были данные только по Diamond Princess, мы бы не могли ничего узнать из них, кроме того что и так известно. Но статистика приобретает силу когда у нас есть несколько источников. Я решил сравнить имеющиеся данные с общей статистикой смертности. В сети можно найти официальную статистику смертности для США не зависимо от факторов. Если взять общую статистику разделенную по возрасту и нормализовать ее для популяции Diamond Princess, можно получить ожидаемую естественную смертность для пассажиров. Они должны попадать под нее не зависимо ни от чего в силу естественных причин. Выборка в 3700 пассажиров у нас довольно большая и период времени почти в два месяца тоже достаточен для того чтобы на этом можно было увидеть статистические закономерности, и нам точно есть что сравнивать.
Для начала я нашел статистику по смертности по группам возрастов не зависимо от причин на 100 000 населения в год.
Я беру данные для США т.к. они есть в открытом доступе и очень подробны. Для России например я таких данных не нашел.
Чтобы наложить данные на популяцию Diamond Princess, мне пришлось совместить возрастные группы т.к. в выборках они не совпадают. Я сделал интерполяцию по среднему. Это небольшую ошибку (3-5%), но даже 10-20% ошибки здесь не играют роли. Но возится с интерполяцией по гиперболе мне было лень. Просто учтем что ожидаемая оценка будет занижена. Плюс я учел длительность наблюдаемого периода. И я совсем не ожидал,что я настолько точно предскажу фактические данные. Смотрим следующую диаграмму.
Флюктуации по возрастам можно объяснить малым количеством наблюдений и тем что они находятся в соседних группах. Суммарная же оценка смертности для всех пассажиров, по моим расчетам получилось 8,69. По факту мы имеем 9 смертельных случаев. Получается что все они укладываются в ожидаемый показатель и все они бы случились не зависимо от заражения Covid-19. Если же предположить что все же Covid-19 стал их причиной, то где тогда еще 9 ожидаемых случаев?! Covid-19 же общей статистике прошлых годов не учтен.
Можно было бы найти какие то изощренные объяснения полученным цифрам, но есть один принцип, который сводит на нет попытки альтернативных объяснений. Этим принципом является Бритва Оккама. Он гласит "Не следует привлекать новые сущности без крайней на то необходимости". Если явление объясняется меньшим количеством сущностей, то это объяснение, с большой долей вероятности, будет истинным. Covid-19 в нашем случае и является этой самой лишней сущностью.
Можно было бы подумать, что случай Diamond Princess уникален, но это не так. Примерно такое же соотношение случаев показывает опыт другого судна Grand Princess шедшего 11-21 февраля из Сан Франциско в Мехико.
Я показал вам в статье методы научного подхода к выборкам данных и к поиску этих данных. Теперь вы знаете чуть больше о том, чему можно доверять а чему нет. К сожалению наше сознание подвержено искажениям, которые цепляются за эмоциональную информацию больше, чем за аналитическую. На этом и строится вся современная медийная пирамида. Большинство информации доходящей до нас носит ярко эмоциональный характер. Все мы боимся смерти, особенно когда о ней напоминают постоянно из всех утюгов. А еще больше мы боимся неизвестности. На эту роль неведомого и смертельного нечто, Covid-19 подходит просто идеально. Очень редко можно увидеть выкладки с цифрами и исследованиями которые я привел в статье. Чаще мы видим стойки гробов и горы трупов снятые неизвестно кем, неизвестно когда и крайне не качественные. Перестаньте слушать и смотреть людей. Слушайте цифры, читайте научные статьи и никому не верьте.
Ссылки
Данные по кораблям
https://wattsupwiththat.com/2020/03/16/diamond-princess-mysteries/
https://www.medrxiv.org/content/10.1101/2020.03.05.20031773v2.full.pdf