Статистика - серьезная наука, требующая специальных знаний, и неподготовленному человеку, крайне трудно бывает разобраться, где правда, а где ложь.
Давайте проверим это утверждение: на 6.04.2020 от COVID-19 в России умерло 58 человек, при этом только за январь в России умерло 164100 человек и, разумеется, за редким исключением, эти люди ели огурцы. Вывод очевиден: огурцы намного опаснее COVID-19.
Конечно, этот нелепый пример с огурцами подобран специально, чтобы у читателя не оставалось сомнений, что вывод неверный. Но сразу ли получится увидеть ошибку, если заменить огурцы, как причину смерти, на что-нибудь более опасное? Будем ли мы думать о верности логической цепочки или сразу поверим, что вывод верный? Интерпретация статистических данных всегда требует некоторых интеллектуальных усилий, поэтому запаситесь терпением и давайте обратимся к российской статистике по COVID-19. Официальная информация по коронавирусу в России публикуется на сайте https://стопкоронавирус.рф
Скачиваем отчет за вчерашний день Отчет о текущей ситуации по борьбе с коронавирусом. 07 апреля 2020 (сегодняшний еще не вышел) и на 4-й странице видим:
На следующей странице мы видим:
На наших глазах происходит явная подмена понятий: люди, у которых тест на Коронавирус SARS-CoV-2 показал положительный результат, приравниваются к больным COVID-19, а вторая картинка при этом утверждает, что все случаи новые. Совершенно непонятно, те люди (вторая строка таблицы), которые выздоровели и потом у них повторно нашли SARS-CoV-2, считаются ли новыми больными? Серьезность этой оговорки, которая сейчас кажется занудной придиркой, будет ясна позже, а пока будем считать, что авторы имели в виду «подтвержденные случаи заболевания»
Результаты исследований и испытаний — это не события. Существуют методы диагностики Коронавируса SARS-CoV-2, а есть само событие — наличие заболевания COVID-19. Например, некий алгоритм на Вашем компьютере проверяет, содержит ли письмо СПАМ, так вот само событие (на почту действительно пришел СПАМ) нужно рассматривать отдельно от работы алгоритма.
Теперь попробуем посчитать размер ошибки и оценить ее последствия. Возможно, ошибка настолько невелика, что и говорить не о чем.
На глобальном сайте Всемирной Организации Здравоохранения (ВОЗ), размещено ВРЕМЕННОЕ руководство «Laboratory testing for 2019 novel coronavirus (2019-nCoV) in suspected human cases» (по ссылке его можно скачать), в котором пишут (перевод с английского): «Шаблоны выделения вируса еще не до конца понятны и необходимы дальнейшие исследования, чтобы лучше понять сроки, разделение и количество выделения вируса для получения оптимального образца.» Другими словами, ВОЗ предупреждает, что не все так просто и ошибки возможны. Вообще, при любой человеческой деятельности возможны ошибки и сдача анализов не исключение. Поэтому давайте попробуем разобраться.
Во врачебной практике различают 3 варианта неадекватных результатов диагностического исследования: ошибки могут быть:
- ложноотрицательными, когда человек болен, а исследование этого не показало
- ложноположительными, когда человек здоров, а анализы показывают, что он болен
- сомнительный анализ мы отдельно описывать не будем, а суммируем его результаты с ложноположительными.
Не хочется перегружать эту статью избыточной информацией, поэтому приведу краткий и неполный список причин, которые могут привести к неверным результатам тестов.
Причинами ложноположительных результатов могут быть: различные ошибки лаборантов(неверная подготовка образца к анализу, случайные подмены пробирок, опечатки в результатах и пр.); аутоиммунные и эндокринные заболевания; загрязнение биоматериалов; устаревшие медицинские приборы; несоблюдение температурных режимов транспортировки и хранения. На мой взгляд вопрос транспортировки и хранения особенно важен, т. к. Россия огромна, а сообщение между городами оставляет желать лучшего. В рекомендациях ВОЗ читаем (перевод с английского):«Образцы для обнаружения вируса должны поступать в лабораторию как можно скорее после сбора. Хорошая сохранность образца во время транспортировки имеет большое значение. Образцы, которые могут быть быстро доставлены в лабораторию, могут храниться при температуре 2-8 ° C., настоятельно рекомендуется использование вирусного транспорта. Если может произойти задержка доставки образцов, они должны быть заморожены до -20 ° C, если задержка доставки ожидается на долгое время то до -70 ° C и перевозится на сухом льду. Важно избегать повторного замораживания и оттаивания образцов.»
Анализ возможностей соблюдения этих рекомендаций в российских условиях не является целью данной работы, поэтому двигаемся дальше.
Причины ложноотрицательных результатов могут быть: наличие серонегативного окна, в медицинской практике это окно известно как «слепой период». Полученные при этом анализы будут недостоверными – ложноотрицательными.
Теперь мы знаем, что в результатах анализов на SARS-CoV-2 могут быть ошибки. На самом деле любой научный эксперимент – это испытание с вероятной ошибкой. Любые методы испытаний, используемые человеком, могут дать неверный результат, и любое оборудование обладает погрешностью измерений.
Теперь превратим результаты исследований на коронавирус SARS-CoV-2 в вероятность события, когда человек действительно болеет COVID-19.
- Предположим, что 1% всех жителей России сейчас болеют COVID-19 (и, соответственно, 99% не болеют). При Пандемии, меньшее число брать рука не поднялась.
- 94% тестов на Коронавирус SARS-CoV-2 выявляют вирус, когда он действительно есть (и, соответственно, 6% не выявляют). Данные с сайта Биофармацевтической компании "Генериум", которая 6 апреля зарегистрировала первый отечественный экспресс-тест на коронавирусную инфекцию. «Изотерм SARS-CoV-2 РНК-скрин»
- Ложноположительный результат примем за 9,6% (стандартных причин, которые могут повлиять на его наличие много, вопрос плохо изучен, но не хочется допускать слишком большую вероятность ошибки), например, при анализах на Гепатит Сложноположительный результат могут получить до 15% пациентов, а для беременных он выше) т. е. допустим 9,6% исследований выявляют SARS-CoV-2, когда его нет и, соответственно, 90,4% верно определяют отрицательный результат.
Далее, для расчета вероятности того, что человек действительно болеет, мне было бы правильнее и проще воспользоваться теоремой Байеса, но я не уверен, что ее вид не напугает большинство читателей.
Поэтому я обойдусь без нее и занесу наши данные в таблицу:
- Допустим 1% людей в России болеют COVID-19
- если у пациента выявили SARS-CoV-2, смотрим в первую колонку: есть 94% вероятность того,
что метод дал верный результат, и 6% вероятность того, что результат исследования (ложноотрицательный) - если у пациента SARS-CoV-2 не выявили, смотрим на вторую колонку. С вероятностью 9,6% положительный результат исследования неверен, и с 90,4% вероятностью можно сказать, что пациент действительно здоров.
Определяем точность метода:
- Допустим, у нас положительный результат на вирус SARS-CoV-2. Разберем все возможные исходы: полученный результат может быть как истинным положительным, так и ложноположительным.
- Вероятность истинного положительного результата равна: вероятность заболеть, умноженная на вероятность того, что тест действительно выявил заболевание. 1% * 94% = 0,94%
- Вероятность ложноположительного результата равна: вероятность того, что заболевания нет, умноженная на вероятность того, что метод выявил заболевание неверно. 99% * 9.6%= 9,504%
Теперь наша таблица выглядит так:
Какова вероятность, что человек действительно болен COVID-19, если он получил положительный результат анализов на SARS-CoV-2? Вероятность события — это отношение количества возможных исходов события к общему количеству всех возможных исходов
вероятность события = исходы события / все возможные исходы
Вероятность истинного положительного результата – 0,94%. Вероятность положительного результата — это вероятность истинного положительного исхода + вероятность ложноположительного. (0,94%+ 9,504%= 10,444%)
вероятность заболевания COVID-19 при положительном результате исследования на SARS-CoV-2рассчитывается так: 0,94%/10,444% = 0.090 - эта величина составляет 9%.
То есть положительный результат анализа на SARS-CoV-2 при заболевшем населении России в размере 1% значит только то, что вероятность наличия заболевания COVID-19 – 9%, а никак не 100%,как предполагают авторы этого отчета.
Этот результат кажется контринтуитивным, но посмотрите еще раз в таблицу, мы имеем ложноположительных результатов в 9,6% случаев (что довольно много), поэтому в нашей выборке будет много ложноположительных результатов. Напомню, что если бы мы указали цифру ложноположительных результатов как при Гепатите С, то результат был бы еще меньше.
Предлагаю прочитать статью китайских ученых, которые исследовали количество ложноположительных результатов при скрининге, в которой видим следующее: «Когда в качестве точечных оценок были взяты частота инфицирования близких контактов и чувствительность и специфичность полученных результатов, то положительная прогностическая ценность активного скрининга составила всего 19,67%, в то время как ложноположительная частота положительных результатов составила 80,33%.»
Эта статья была изъята из публикации, поэтому я не стал опираться на эти цифры. Возможно, это у китайцев так, а наши ученые делают все гораздо более качественно (это не сарказм, я верю в нашу научную школу).
Давайте лучше изменим количество заболевших в 10 раз и посмотрим, что получится с нашей точностью измерения. Т. е. допустим, что у нас болеет COVID-19 10% населения России.
вероятность события = исходы события / все возможные исходы
Вероятность истинного положительного результата – 9,4%. Вероятность положительного результата — это вероятность истинного положительного исхода + вероятность ложноположительного.
(9,4%+ 8,640%= 18.04%)
Тогда вероятность заболевания при положительном результате исследования на SARS-CoV-2 будет: 9,4%+ /18.04%) = 0.521. Т. е. 52.1% (почти как кинуть монетку на «орел/решка»)
Т. е. когда все вокруг болеют (10%) и у меня положительный тест на SARS-CoV-2, я либо болею, либо не болею COVID-19? Так я это и так знаю без теста, тест то тогда зачем мне нужен?
Именно поэтому необходимо знать точные показатели тестов и их сравнительные характеристики, а уже потом рассказывать сколько определили больных, а сколько здоровых. В противном случае эта информация не только не имеет смысла - она дезинформирует власти и население. Думаю, что оговорка, в начале статьи о новых заболеваниях уже не кажется занудной придиркой и очевидно, что ведение статистики по вновь заболевшим — это необходимость и выздоровевшие люди не находятся в безопасности. Многие из них не болели, а понятие «бессимптомное протекание болезни», стоит подвергнуть сомнению и проверке. Как видим, статистика по выздоровевшим тоже вызывает вопросы.
Теперь давайте посмотрим на числа в последней строчке, которая называется «Умерли». Сначала разберемся в терминологии:
Лета́льность (лат. letalis смертельный, син. смертельность)
статистический показатель, представляющий собой отношение (в процентах) числа умерших от какой-либо болезни к числу больных этой болезнью за определенный промежуток времени: используется для характеристики опасности болезни, а также для оценки качества и эффективности работы лечебно-профилактических учреждений.
Тут сразу возникает вопрос, если человек болея COVID-19 перенес инфаркт и умер в больнице это попадет в какую статистику? В смертность от COVID-19 или в смертность от сердечно-сосудистых заболеваний? Есть ли риск, что его не занесут в статистику по COVID-19, учитывая тот факт, что этот показатель используется для оценки качества и эффективности работы лечебно-профилактических учреждений?
Но если этот вопрос относится скорее к области профессиональных интересов специалистов, занимающихся медицинской статистикой, то нам гораздо важнее ответить на вопрос:
Когда человек умер, не проходя обследования при жизни, надо ли ему проводить тест на
SARS-CoV-2?
Думаю, что тест необходимо делать, т. к. проведение церемонии похорон и прощания с умершим, друзьями и родственниками, будет напрямую зависеть от того, болел умерший COVID-19 или нет. Сейчас умерших в обязательном порядке не тестируют. Очевидно, если делать тесты умершим, это серьезно испортит статистику, но и поможет сократить количество вновь заразившихся. Например,в Италии, в отличие от Германии, у каждого умершего в рамках аутопсии берут анализ на коронавирус SARS-CoV-2 и часто его обнаруживают, хотя скончавшиеся были госпитализированы по другим поводам. Таких умерших там записывают в статистику по COVID-19.
Одним из способов, позволяющим хотя бы частично снимать неопределенность и непредсказуемость нашего будущего, а также перераспределять риски и шансы вместе с вероятностями их наступления, и тем самым делать наше будущее более определенным и прогнозируемым, является постоянный анализ ситуации. Без постоянного мониторинга информации по COVID-19, без грамотной организации сбора и анализа данных, ТЩАТЕЛЬНО КОНТРОЛИРУЕМОЙ МЕТОДОЛОГИЕЙ ИССЛЕДОВАНИЙ, управление ситуацией в России будет осуществляться не в форме целенаправленной деятельности, а в форме пассивной, приспособительной, бесцельной и бессмысленной активности. Поэтому, я очень надеюсь, что ситуация со сбором и анализом данных по COVID-19 изменится в лучшую сторону.
Берегите себя! 8.04.2020
P.S. Только дописав эту статью, до конца, понял какая она получилась длинной и тяжелой, благодарю за внимание и обещаю не писать больше статьи такой длины, ставьте лайки подписывайтесь на канал.