В 1950-х врачи заметили: пациенты, которым давали эстроген, реже болели сердечными заболеваниями. Корреляция была очевидна. Миллионам женщин назначили гормональную терапию.
Результат? Увеличение инсультов и рака груди.
Корреляция была. Причинности — не было.
Эта ошибка стоила тысяч жизней. И она продолжает работать прямо сейчас — в новостях, которые вы читаете, в исследованиях, которым верите, в решениях, которые принимаете.
Что такое корреляция и причинность?
Корреляция — это когда два явления меняются в одном направлении. Одно растёт — другое растёт. Или одно падает — другое падает. Выглядит как причина и следствие.
НО:
Причинность — это когда одно явление напрямую вызывает другое.
Простой пример:
- Корреляция: Число пожарных машин на пожаре коррелирует с ущербом от пожара. Чем больше машин — тем больше ущерб.
- Причинность: Пожарные машины НЕ вызывают ущерб. И машины, и ущерб вызваны третьим фактором — размером пожара.
Путаница между этими понятиями называется Post Hoc Fallacy (post hoc ergo propter hoc — «после этого — значит вследствие этого»). Это логическая ошибка, которые мы уже разбирали.
Но сегодня копнём глубже.
Забавные примеры ложных корреляций
Тайлер Виген, студент Гарвардской школы права, создал сайт Spurious Correlations («Ложные корреляции»), где собрал сотни абсурдных статистических связей.
Вот топ-5 самых смешных:
1. Николас Кейдж и смерть в бассейнах
Корреляция: 0,66
Число фильмов с Николасом Кейджем, выпущенных за год, коррелирует с количеством людей, утонувших в бассейнах.
Вывод (абсурдный): Запретить Николасу Кейджу сниматься в кино = спасти жизни.
Реальность: Две совершенно не связанные переменные случайно двигаются в одном направлении.
2. Потребление маргарина и разводы в штате Мэн
Корреляция: 0,99
Чем больше люди в штате Мэн едят маргарина, тем выше процент разводов.
Вывод (абсурдный): Маргарин разрушает браки.
Реальность: Обе величины просто случайно менялись синхронно в течение одного периода времени.
3. Потребление чая и смерть от газонокосилки
Корреляция: высокая
Больше потребление чая = больше людей погибает от неправильного использования газонокосилок.
Вывод (абсурдный): Чай делает людей неуклюжими при работе с газонокосилками.
Реальность: …Да никакая. Просто две случайные переменные.
4. Поставки креветок и смерть от осколков стекла
Корреляция: 0,93
Объём поставок креветок в США коррелирует со смертями от острого стекла.
Вывод (абсурдный): Бойкотируйте креветки — спасите жизни!
Реальность: Совпадение. Ничего больше.
5. Расстояние от Нептуна до Солнца и цена акций Apple
Корреляция: есть
Расстояние между Нептуном и Солнцем коррелирует с курсом акций.
Вывод (абсурдный): Инвестируйте, опираясь на орбиты планет!
Реальность: Если искать долго, можно найти корреляцию между чем угодно.
Почему это работает?
Математика — это инструмент. Он находит корреляции. Миллионы корреляций. Но он не понимает смысла.
Если у вас есть тысячи переменных, вы гарантированно найдёте пары с высокой корреляцией просто по теории вероятности.
Проблема: Наш мозг ищет паттерны. Даже там, где их нет. Это называется парейдолия в визуальном восприятии и апофения в восприятии данных.
Мы видим два графика, которые движутся вместе, и мозг кричит: «Связь! Причина! Объяснение!»
Но иногда ответ гораздо проще: случайность.
Серьёзные примеры: когда ошибка стоит жизней
Теперь — серьёзная сторона вопроса. Путаница между корреляцией и причинностью убивает людей и разрушает жизни.
1: Ночники и близорукость
1999 год, журнал Nature.
Исследование показало: дети до 2 лет, которые спят с ночником, чаще страдают близорукостью.
Заголовки: «Ночники вызывают близорукость!»
Родители в панике выключают ночники.
Реальность: Последующие исследования обнаружили скрытую переменную — родители.
Близорукие родители:
- Чаще оставляют ночник (потому что сами плохо видят в темноте)
- Передают гены близорукости детям
Ночник был ни при чём. Корреляция — да. Причинность — нет.
2: Гормональная терапия и здоровье сердца
1990-е годы.
Исследования показали: женщины, принимающие гормональную терапию во время менопаузы, имеют на 30% ниже риск сердечных заболеваний.
Вывод: Гормоны защищают сердце!
Врачи начали массово назначать гормональную терапию.
Реальность: Рандомизированное контролируемое исследование (РКИ) показало обратное — гормоны повышают риск сердечных проблем.
Что произошло?
Скрытая переменная: женщины, принимавшие гормоны, были более обеспеченными, образованными, заботились о здоровье, лучше питались. Их здоровье защищало сердце, а не гормоны.
Корреляция обманула миллионы женщин и врачей.
3: Завтрак и успеваемость в школе
Классика:
Дети, которые завтракают, лучше учатся.
Вывод: Завтрак улучшает обучение.
Реальность: Скрытая переменная — семья.
Семьи, в которых готовят завтрак:
- Более организованы
- Больше внимания уделяют детям
- Имеют стабильный режим дня
Именно эти факторы влияют на успеваемость, а не сам факт приёма пищи утром.
Корреляция есть. Но причинность не прямая.
Три причины ложной корреляции
1. Случайность
Если вы измеряете тысячи переменных, какие-то из них обязательно будут меняться синхронно. Это чистая математика.
Пример: количество букв в именах президентов США и цена на нефть. Найдёте корреляцию? Скорее всего, да. Есть ли смысл? Нет.
2. Скрытая переменная
Два явления коррелируют не потому, что одно вызывает другое, а потому что третий фактор вызывает оба.
Пример: Продажи мороженого и количество утоплений.
- Мороженое НЕ топит людей.
- Скрытая переменная: жаркая погода.
Жара → люди покупают мороженое.
Жара → люди идут купаться → больше утоплений.
3. Обратная причинность
Вы думаете, что A вызывает B. Но на самом деле B вызывает A.
Пример: Люди, которые не пьют алкоголь, имеют более высокую смертность.
- Вывод (ошибочный): Алкоголь полезен!
- Реальность: Люди бросают пить, потому что уже больны. Болезнь вызвала отказ от алкоголя, а не наоборот.
Как отличить корреляцию от причинности?
1: Сила связи
Чем сильнее корреляция, тем больше шанс, что она не случайна.
Пример:
Курение повышает риск рака лёгких в 15-30 раз. Это огромная разница — явно не случайность.
2: Временная последовательность
Причина должна предшествовать следствию.
Если A происходит после B, то A не может быть причиной B.
3: Биологическая / логическая правдоподобность
Есть ли механизм, который объясняет связь?
Пример:
Вирус HPV и рак шейки матки — есть биологический механизм (вирус повреждает ДНК клеток).
Моцарелла и докторские степени — механизма нет.
4: Воспроизводимость
Повторяется ли корреляция в разных исследованиях, в разных странах, в разное время?
5: Эксперимент
Золотой стандарт: Рандомизированное контролируемое исследование (РКИ).
Вы активно меняете переменную A и смотрите, меняется ли B.
Если меняется — скорее всего, причинность есть.
Почему СМИ любят ложные корреляции?
1: Заголовки
«Кофе вызывает рак» — кликабельнее, чем «Обнаружена слабая корреляция, требующая дополнительных исследований».
2: Простота
Корреляцию легко найти. Причинность — сложно доказать. Журналистам нужен материал сегодня, а не через 10 лет исследований.
3: Подтверждение убеждений
Если корреляция подтверждает то, во что люди хотят верить, они делятся новостью.
Напоследок
Статистика не врёт. Врут люди, которые неправильно её интерпретируют.
Корреляция — это индикатор, а не доказательство. Она говорит: «Эй, тут что-то интересное, стоит копнуть глубже».
Но сама по себе корреляция не отвечает на вопрос «почему?».
Следующий раз, когда увидите заголовок:
«Учёные обнаружили, что X связано с Y!»
Задайте три вопроса:
- Может ли это быть случайностью?
- Есть ли скрытая переменная?
- Был ли эксперимент, или это просто наблюдение?
Если ответы вас не устраивают — игнорируйте заголовок.
Потому что иначе вы рискуете поверить, что Николас Кейдж топит людей в бассейнах.
Другие статьи по схожим тематикам можно найти по карте.
Для быстрого поиска по каналу используйте поисковую систему.