Найти тему
Факторы смысла

Измеряем статистический эффект ремня как средства воспитания (и применяем к ремню коэффициент эффективности вакцины)

Уважаемые коллеги и дорогие читатели! Вчера я привел немало упрощенных примеров, чтобы показать, что для статистического измерения эффективности вакцины имеет смысл скорее вычитать вероятности событий, чем делить. Сегодня мне пришло в голову проанализировать еще один пример - полусерьезный-полуюмористический. Речь идет о том, чтобы в ходе УМСТВЕННОГО ЭКСПЕРИМЕНТА представить себе, как могла бы выглядеть четырехклеточная таблица сопряженности (ЧТС), если бы мы с Вами захотели в ходе опроса большого количества родителей выяснить, помогает им ремень как средство воспитания или на самом деле никакого эффекта нет, а может быть, даже есть, но... отрицательный.

Стоит ли пояснять, что наказание ремнем современная гуманистическая педагогика, конечно, категорически отрицает? Но... значительная часть родителей (в основном мужского пола) продолжают считать, что трудновоспитуемых, плохоуправляемых детей (особенно мальчиков в самом начале переходного возраста ) без ремня вообще нельзя удержать от мелких правонарушений, которые, увы, постепенно могут перерасти в крупные.

Признаюсь, у меня сейчас НЕТ времени искать в психолого-педагогической литературе какие-нибудь сведения о масштабных экспериментах (по числу наблюдений), которые решали бы такую задачу - измерить эффективность ремня статистическими методами. Но не это мне сейчас важно (!). Мне важно только лишь использовать "ремень" как пример ситуации, когда у нас возникает статистическая таблица 2 на 2, в которой и строки, и столбцы содержат НЕРАВНОЕ число наблюдений. Я хочу Вам показать, что в этом случае используемый в настоящее время "коэффициент эффективности вакцины" (КЭВ) ведет себя на самом деле ХУЖЕ, чем показатель "добавленная вероятность".

Ниже мы рассмотрим не одну, а две таблицы ЧТС. В первом умозрительном примере покажем, как могли быть заполнены клеточки таблицы, если бы ремень в самом деле немножко помогал, а во втором - если бы только вредил воспитанию (давал бы отрицательный эффект).

УМОЗРИТЕЛЬНАЯ ЧТС, КОГДА РЕМЕНЬ НЕМНОЖКО ПОЛЕЗЕН

Таблица ЧТС 1.
Таблица ЧТС 1.

====================================

ВАЖНАЯ ОГОВОРКА: все данные в указанных таблицах являются ВЫМЫШЛЕННЫМИ. Они лишь служат для иллюстрации метода анализа данных, а не для каких-либо серьезных педагогических выводов. Зачем я делаю эту оговорку? - Увы, мне уже приходили диковатые претензии со стороны администрации Дзена по случаю такого рода "дидактичеких примеров". Они звучат буквально так: "В вашей публикации использованы недостоверные данные. Поэтому круг читателей вашей публикации ограничен" (??? - три знака вопроса в данном случае, разумеется, поставил я - автор статьи).

=====================================

Что же мы видим в первом случае? Допустим, обследовано 100 тысяч подростков. Все эти случаи разбиты на четыре категории, показанные в таблице 1. Предположим, что чаще других (71 тысяча) встречаются такие благополучные случаи, когда подросток не совершает криминальных проступков (кражи) и не получает телесных наказаний в семье. Эту правую нижнюю клеточку ЧТС в статистике принято обозначат латинской буквой D (случай D). Реже всего, встречается самые тяжелые (с точки зрения воспитательных перспектив) случаи, когда подросток получает телесные наказания, но все равно совершает кражи. В левой верхней клетке стоит число 0,5, что означает полтысячи или 500 случаев. А в остальных клетках стоят числа, равные 10 тысячам или почти 10 тысячам. Под таблицей указаны различные коэффициенты, среди которых два первый - это те, которые нас интересуют больше всего. Это "реальная эффективность" (она же "добавленная вероятность") и коэффициент КЭВ-1 - тот самый, который эпидемиологи применяют для статистического измерения эффективности вакцины.

Какие мы бы выводы могли сделать при виде этой таблицы, получив автоматически в электронных таблицах Эксель те же самые коэффициенты, которые я получал для пяти случаев в статье "Ответ на критику вакцинаторов"? Мы видим, что КЭВ-1 довольно высокий - почти 80% (не всякая вакцина в мире достигает такого значения эффективности после появления штамма "дельта" - индийского штамма). А вот добавочная вероятность на самом деле весьма низкая - ниже 10 процентов. А теперь прикиньте, пожалуйста, какой из двух коэффициентов лучше описывает ситуацию в таблице? Ремень дает положительный эффект, но на самом-то деле небольшой. Разве помогает ремень в 79% случаев, как указывает нам КЭВ-1? - Нет, конечно, Поэтому данный пример призван Вам показать наглядно, что КЭВ-1 не имеет отношение к оценке вероятности случаев, когда ремень помогает. Еще страшней нас вводит в заблуждение, впрочем, даже не КЭВ-1, а так называемый показатель "Ложная эффективность". Мы видим, что это просто ГЛУБОКАЯ ошибка, а не показатель. А ведь находятся люди (их все еще больше 10 процентов по данным нашего тестирования), которые даже при виде ЧТС считают, что для правильного расчет процента эффективности надо делить левую верхнюю клетку А на сумму случаев в первой строке. Как видим, в данном случае, если бы мы применили этот курьезный (точней - трагикомический) подход, то получили бы магическую цифру 95 процентов надежности (!) Почему же такие ошибки в спорах на Дзене встречаются регулярно? - А потом, что люди НЕ умеют правильно группировать статистические данные: у них чаще всего перед глазами только верхняя строка ЧТС, а нижняя строка отсутствует вовсе (!). И они даже не думают о том, что работать с неполной таблицей 2 на 2 - это очень опасно (!).

Почему же мы наблюдаем низкий прирост эффективности от употребления ремня по данным таблицы 1? - А потому, что на самом деле случаи "трудные дети" или "легкие дети" встречаются не поровну, как предполагает КЭВ, а встречаются с существенно разной частотой: трудных у нас, как видите, только 10 процентов, а легких (послушных) - 90 процентов. Вот именно из-за этой асимметрии КЭВ ведет себя плохо - обманывает нас. Но ведь при анализе вероятности такого события как "тяжелое течение ковида", который встречается в популяции пока, слава Богу никак не чаще 10 процентов, наблюдается точно такая же картина как в нашей условной таблице 1. Получается, что показатель "добавочная вероятность " локализует эффект ремня в рамках группы "трудные подростки" и хотя бы не распространяет на легких (послушных). В то время как этот самый КЭВ как бы распространяет статистическую тенденцию, выявленную для трудных, на всех подростков и ЗАВЫШАЕТ полезный эффект ремня. Это понятно?

А что такое КЭВ-2 - это тот же коэффициент КЭВ-1, только ... наизнанку! Он основан на отношении (делении) вероятностей тех случаев, которые присутствуют не в верхней, а в нижней строке таблицы 2 на 2. Как видим, значение у КЭВ-2 почти такое же как у "снижении риска" (добавленной вероятности) - в районе 10 процентов. И это неслучайно, ведь послушных в нашей полной выборке гораздо больше, чем трудных детей. Зачем же бить ремнем этих послушных? Показатели "снижение риска" и КЭВ-2 удерживают нас от мягко говоря "поспешных" решений в пользу ремня.

===================================

Педагогическое отступление. Я понимаю, что темой этой статьи могут заинтересоваться вовсе не только читатели, которые до этого следили за моими публикациями насчет измерения эффективности вакцины. Тут могут появиться читатели, которых интересуют чисто педагогические проблемы, в том числе теории и мифы семейной педагогики (ибо "полезный эффект ремня" - это, конечно, в чистом виде миф). Эти наши читатели, как я предвижу, обязательно меня спросят: а что это у Вас так много бьют ремнем детей, который НЕ совершают кражи? За что? Поясняю, почему 10 тысяч в левой нижней клетке можно как-то объяснить. Дело ведь в том, что некоторые "строгие отцы" (реже "строгие матери") наказывают за не самое страшное непослушание: за дерзкие слова, за прогул в школе, за драку во дворе, за курение, за бардак в комнате и т.п.

==================================

Вот мы и смотрим, как такие случаи телесных наказаний за обычные дисциплинарные нарушения влияют на самом деле на профилактику (предотвращение) уже не дисциплинарных, а криминальных правонарушений (таких как кража). Какова же вероятность совершить кражу у тех, кого бьют ремнем? - В таблице 1 она выписана под левым столбцом и названа "доля воришек". Это 2,5 процента. Но можно ли из этого сделать вывод, что в 97.5% случаев именно битье ремнем предотвращает перерастание дисциплинарных нарушений в криминальные? - Конечно, нет! Необходимо обязательно анализировать не один столбец (как и ни одну строку). а полную таблицу 2 на 2. Смотрите, какова доля воришек среди тех, кого ни разу не побили ремнем? - Гораздо больше, чем 2.5 процента - почти 11.9 процентов (!). Поэтому силу полезного эффекта более точно и комплесно отражает в таком случае именно показатель "добавленная вероятность".

УМОЗРИТЕЛЬНАЯ ЧТС, КОГДА РЕМЕНЬ ВРЕДЕН

Таблица ЧТС 2.
Таблица ЧТС 2.

Таблица номер 2 устроена также формально, но значения проще, чем в таблице 1. Здесь опять результаты обследования 100 000 подростков. Благополучный случай D (напомню, кода дети послушные и их не бьют) здесь еще чаще встречается - в подавляющем большинстве случаев (85 тысяч). А остальные все три клетки ЧТС имеют по 5 тысяч наблюдений, как видим.

Что скажет, глядя на эти данные совсем некомпетентный человек, который НЕ умеет анализировать ЧТС? - Во-первых, если он игнорирует данные в нижней строке то он делает абсолютно неправильный вывод в духе показателя "ложной эффективности": ремень - это нейтральное средство воспитания (в целом безвредное, но и бесполезное одновременно), то есть в половине случае (50%) он помогает удержать детей от краж, а в половине - не помогает (?!). Но... если мы правильно анализируем ЧТС 2, если мы учитываем две клетки нижней строки, то на самом деле сразу увидим негативный эффект "ременной педагогики": "добавочная вероятность" оказывается отрицательной, то есть доля воришек среди битых оказывается не меньше, а на 44,4% больше, чем доля воришек среди небитых. Ну как это выглядит для вас? Правдоподобно? В этом случае грамотные аналитики говорят, что таблица сопряженности дает ОТРИЦАТЕЛЬНУЮ КОРРЕЛЯЦИЮ событий: использование ремня не понижает, а на самом деле повышает вероятность преступлений, то есть на самом деле таблица 2 и показатель "снижение риска" показывают нам ОТРИЦАТЕЛЬНЫЙ ЭФФЕКТ РЕМНЯ.

А что же показывает коэффициент КЭВ-1 в этом случае? - Очень странное значение -800 % (!). Ну слава Богу, это хотя бы отрицательное значение. Но уж к вероятностям оно совсем никакого отношения не имеет (вероятности по определению не могут выходить за границу 0 и 1, или 0% и 100%, если в процентах) Как видим, этот эпидемиологический коэффициент совсем не приспособлен для фиксации возможного негативного эффекта и дает фактически непонятное, неинтепретируемое значение.

Ну как, читатели, Вам этот новый пример? Он лучше помогает понять, почему надо вычитать, а не делить вероятности, и почему правильней для анализа зависимостей в ЧТС пользоваться показателем "добавленная вероятность"?

КРАТКОЕ РЕЗЮМЕ (вывод)

Очевидно, что КЭВ - это не такой плохой коэффициент. Но...только для такой ситуации, когда РАВНЫ суммы по первой строке ЧТС (для больных) и по второй строке ЧТС (для здоровых). Иными словами: когда у нас больных столько же, сколько здоровых. В экспериментальных (клинических) испытаниях вакцины так нередко искусственно и происходит (!): под наблюдение в контрольную группу здоровых берут столько людей, сколько уже есть в группе больных (а группы плацебо вообще меньше по численности). Это достаточно для эксперимента, слишком дорого привлекать в контрольную группу, например, в 10 раз больше здоровых, чем у нас есть больных. Тем самым в эксперименте две выборки искусственно выравниваются. Но... это большая ошибка применять КЭВ для оценки вероятности не заболеть на больших, сплошных реальных выборках (на так называемой "генеральной совокупности наблюдений", как говорят в статистике). Для почти ВСЕХ болезней группа больных на генеральной совокупности гораздо меньше, чем группа здоровых. Поэтому КЭВ остается высоким, а добавочная вероятность (которая нам и нужна для принятия решения) резко снижается. Подробней я это показал в предыдущей статье "Ответ на критику со стороны вакцинаторов (и пять критических примеров ЧТС)"

ССЫЛКА НА ОБУЧАЮЩИЙ ТЕСТ

В последних статьях я каждый раз предлагаю читателям пройти обучающий тест из 10 проблемных ситуаций, чтобы научиться работать с ЧТС:

http://services2.ht-line.ru/m-tests/?testing=fa854f422d675e9e

По этому тесту уже накоплены результаты 85 участников - именно читателей на Дзене. Поэтому уже известно, что средний результат - это 8 правильных ответов из 10. Вы уже сможете сразу после теста сравнить свой результат со средним.

Фото обложки автор нашел на сайте twitter.com (через фото-галерею Яндекс-картинки).