6 подписчиков

Ошибка судьи и ошибка спасателя: Как наконец понять ошибки I и II рода в статистике 🧠⚖️

27 мая27 мая

4 мин

Какая ошибка страшнее: отпустить виновного или осудить невиновного? В статистике есть два понятия: Несмотря на академичность и даже некоторую скучность, на кону здесь часто стоят миллионы долларов, здоровье пациентов или свобода людей. Давайте разберемся, что это за такие ошибки. Прежде чем говорить об ошибках, нужно понять, с чем мы вообще работаем. Любой статистический тест — это спор между двумя утверждениями. Это состояние «по умолчанию». Скучное, стабильное, ничего не меняется. Почему она «нулевая»? Потому что мы исходим из того, что никаких сенсаций нет, пока не доказано обратное. Бремя доказательства лежит на оппоненте. Это то, что мы пытаемся доказать. Это изменение, эффект, открытие. Внимание! Мы никогда не «принимаем» нулевую гипотезу. Мы можем только не отвергнуть её. Если улик мало, мы не говорим «он точно невиновен», мы говорим «не доказана вина». Представьте, что вы — судья (или алгоритм, принимающий решение). У вас есть данные (улики), и вы должны вынести вердикт. Но дан

Оглавление

Гипотезы
🏛 Нулевая гипотеза (H0) — «Презумпция невиновности»
🚀 Альтернативная гипотеза (H1) — «Сенсация!»

Какая ошибка страшнее: отпустить виновного или осудить невиновного?

В статистике есть два понятия:

ошибка первого рода
ошибка второго рода

Несмотря на академичность и даже некоторую скучность, на кону здесь часто стоят миллионы долларов, здоровье пациентов или свобода людей.

Давайте разберемся, что это за такие ошибки.

Гипотезы

Прежде чем говорить об ошибках, нужно понять, с чем мы вообще работаем. Любой статистический тест — это спор между двумя утверждениями.

🏛 Нулевая гипотеза (H0) — «Презумпция невиновности»

Это состояние «по умолчанию». Скучное, стабильное, ничего не меняется.

В суде: «Подсудимый невиновен».
В медицине: «Лекарство не работает» (эффекта нет).
В маркетинге: «Новый дизайн кнопки не увеличил конверсию» (изменений нет).

Почему она «нулевая»? Потому что мы исходим из того, что никаких сенсаций нет, пока не доказано обратное. Бремя доказательства лежит на оппоненте.

🚀 Альтернативная гипотеза (H1) — «Сенсация!»

Это то, что мы пытаемся доказать. Это изменение, эффект, открытие.

В суде: «Подсудимый виновен».
В медицине: «Лекарство эффективно».
В маркетинге: «Красная кнопка продает лучше зеленой».

Внимание! Мы никогда не «принимаем» нулевую гипотезу. Мы можем только не отвергнуть её. Если улик мало, мы не говорим «он точно невиновен», мы говорим «не доказана вина».

Где тут ошибка?

Представьте, что вы — судья (или алгоритм, принимающий решение). У вас есть данные (улики), и вы должны вынести вердикт. Но данные могут быть шумными, неполными или обманчивыми.

Здесь возможны четыре исхода для подсудимого. Два из них — правильные, а два — ошибки.

Он реально невиновен (H0 верна):

Мы сказали: «Невиновен» (H0) — ✅ Всё ок. Справедливо.
Мы сказали: «Виновен» (H1) — ❌ Ошибка I рода (Ложная тревога)

Он реально виновен (H1 верна):

Мы сказали: «Виновен» (H1) — ✅ Всё ок. Преступник наказан.
Мы сказали: «Невиновен» (H0) — ❌ Ошибка II рода (Преступник на свободе)

👮‍♂️ Ошибка I рода: Ложная тревога (False Positive)

Суть: мы отвергли нулевую гипотезу, хотя она была верна.
Простыми словами: мы нашли эффект там, где его нет.

В суде: невинного человека посадили в тюрьму.
В медицине: здоровому человеку поставили страшный диагноз.
В спам-фильтре: важное письмо от босса улетело в папку «Спам».

Почему это происходит?
Мы были слишком подозрительны. Наш «детектор лжи» сработал на случайный шум. В статистике вероятность такой ошибки обозначается буквой α (альфа). Обычно её устанавливают на уровне 0.05 (5%). Это значит, что мы готовы ошибиться и наказать невиновного в 5% случаев ради того, чтобы ловить преступников.

Запоминалка: Ошибка I рода — это Излишняя бдительность.

🕵️‍♀️ Ошибка II рода: Пропуск цели (False Negative)

Суть: мы не отвергли нулевую гипотезу, хотя она была ложна.
Простыми словами: мы пропустили реальный эффект.

В суде: опасный преступник вышел на свободу, потому что «не хватило улик».
В медицине: больному человеку сказали: «Вы здоровы», и он не получил лечение.
В спам-фильтре: мошенническое письмо пролезло во «Входящие».

Почему это происходит?
Наш тест был слишком слабым, или данных было мало. Мы не увидели сигнал сквозь шум. Вероятность такой ошибки обозначается β (бета). А вот важная метрика, которую вы могли видеть в ML: Мощность теста (Power) = 1−β. Это вероятность того, что мы правильно обнаружим эффект, если он есть.

Запоминалка: Ошибка II рода — это Игнорирование реальности.

⚖️ Какую ошибку страшнее допустить?

Вот тут начинается самое интересное. Вы не можете минимизировать обе ошибки одновременно, просто взяв и «улучшив» тест. Они взаимосвязаны.

📉 Если вы хотите снизить риск посадить невиновного (уменьшить ошибку I рода), вам придется ужесточить критерии. Но тогда вы начнете отпускать больше реальных преступников (вырастет ошибка II рода).

📈 Если вы хотите поймать каждого шпиона (уменьшить ошибку II рода), вам придется реагировать на каждый шорох. Но тогда полгорода окажется в изоляторе по ложным доносам (вырастет ошибка I рода).

Что выбирать? Зависит от цены ошибки.

Сценарий «Титаник» (Страшна ошибка II рода):

Датчик дыма в самолете.

Ошибка I рода (ложная тревога). Самолет сядет вне плана, пассажиры понервничают. Дорого, но не смертельно.
Ошибка II рода (пропуск пожара). Самолет сгорит. Катастрофа.

Решение. Настраиваем датчики на сверхчувствительность. Лучше перестраховаться.

Сценарий «Суд присяжных» (Страшна ошибка I рода):

Уголовный процесс.

Ошибка I рода. Невиновный сидит в тюрьме. Крушение жизни, несправедливость.
Ошибка II рода. Преступник на свободе. Риск для общества, но презумпция невиновности важнее.

Решение. Требуем доказательств «вне разумных сомнений». Порог очень высокий.

Сценарий «Запуск новой фичи» (Баланс):

A/B тест в приложении.

Ошибка I рода. Внедрили бесполезную кнопку. Потратили ресурсы разработчиков.
Ошибка II рода. Не внедрили крутую кнопку, которая подняла бы прибыль на миллион. Упустили выгоду.

Решение. Зависит от аппетита к риску компании.

🎓 Резюме

H0 (Нулевая) — это статус-кво, «нет эффекта». Мы её охраняем, пока улики не станут подавляющими.
Ошибка I рода (α) — ложноположительный результат. «Найдено там, где пусто». Контролируется уровнем значимости (p-value).
Ошибка II рода (β) — ложноотрицательный результат. «Не найдено там, где есть». Зависит от размера выборки и мощности теста.
Эффект короткого одеяла: снижая одну ошибку, вы почти всегда повышаете другую. Ваша задача как аналитика — понять, какая ошибка в вашем бизнес-контексте стоит дороже, и настроить пороги под неё.

Понимание этой разницы отличает новичка, который слепо смотрит на p-value < 0.05, от профи, который спрашивает: «А какова цена нашей ошибки?».