Автор – Альбина Галлямова
Сегодня термин «ложная корреляция» вместе с банальной фразой «корреляция — не равно причинность» стал популярен в медийном пространстве и, к сожалению, часто употребляется слишком вольно, когда люди хотят «отмахнуться» от неудобной статистики: «Бред, это просто ложная корреляция — можно не обращать внимания!», «Очевидно, бредовая связь! Ложная корреляция!».
Действительно, ложная корреляция — это статистическая аномалия, когда две переменные X и Y показывают согласованные изменения, но в реальности между ними нет ни прямой, ни косвенной связи. Однако проблема в том, что термин «ложная корреляция» зачастую используется как универсальный таран для «опровержения» неудобных данных.
Часто, чтобы дискредитировать корреляцию, которая может казаться странной или неудобной, её сравнивают с известными примерами «абсурдных корреляций» (см. коллекцию Тайлера Вигена). Например, широко известна ложная корреляция между числом рыбаков, утонувших после падения из лодки, и количеством браков в Кентукки.
Ложная корреляция количества фильмов, в которых снялся Уилл Смит и выработки электроэнергии в Косово
На графике согласованные изменения выглядят убедительно, но очевидно, что никакого реального механизма, объясняющего такое совпадение, не существует. Такие примеры создают комичную иллюстрацию того, «как корреляция может вводить в заблуждение». Однако злоупотребление этим подходом приводит к тому, что даже потенциально значимые взаимосвязи отклоняются без должного анализа.
Опасности поспешных заявлений о ложной корреляции
1. Упускаем реальные механизмы: объявляя корреляцию «ложной» без должного анализа, мы рискуем не заметить важные скрытые механизмы, которые могут объяснить наблюдаемую закономерность.
2. Софистический приём: некоторые люди используют понятие «ложной корреляции» как риторический приём для дискредитации неудобных данных. Подход «эта корреляция мне не нравится или/и не понятна, а значит, она ложная» — не аргумент, а манипуляция.
3. Подрыв доверия к статистике: если каждую неожиданную или сложную статистическую связь сразу отвергать как ложную, это может привести к недоверию к статистическим методам в целом. Люди начинают воспринимать статистику как способ манипуляции, а не как инструмент познания мира.
Когда корреляция действительно ложная
Ложная корреляция возникает в следующих случаях:
1. Случайное совпадение: если мы анализируем тысячи рандомных переменных, среди них почти наверняка найдутся пары, показывающие высокую ложную корреляцию случайно. Это типичная ситуация для больших массивов данных.
2. Общий тренд: две переменные могут показывать рост или спад синхронно просто потому, что обе вписываются в общий временной тренд. Например, количество фильмов, в которых снялся Уилл Смит и выработка электроэнергии в Косово могут расти с течением времени, но это не означает наличие общего механизма.
3. Плохие данные: маленькая или смещённая выборка, либо присутствие выбросов могут создавать ложное впечатление о наличии связи. В отдельных случаях даже один-два выброса способны значительно изменить коэффициент корреляции.
Конфаундинг — это не ложная корреляция
Кроме того, косвенная связь НЕ является ложной корреляцией. Иногда корреляция между X и Y действительно существует, но обусловлена третьей переменной Z, которая оказывает влияние на обе переменные. Это явление называется конфаундингом (confounding, «смешивающим фактором»).
Пример: исследования показывают, что люди, проводящие больше времени за просмотром сериалов (X), имеют более высокий риск ожирения (Y). Может показаться, что сериалы напрямую провоцируют ожирение. Однако скрытым фактором может быть малоподвижный образ жизни (Z), который одновременно увеличивает время за экраном и снижает физическую активность.
На практике ложные корреляции встречаются не так часто, как принято считать. Чтобы обнаружить их, нужно ещё сильно постараться — требуется очень большое количество переменных и анализ без чёткой гипотезы. Учёный, который целенаправленно изучает конкретный механизм, тщательно отбирает переменные и корректно проводит анализ, минимизирует вероятность ложных корреляций. Если корреляция проходит проверку временем и сохраняется при разных подходах, говорить о «ложности» становится некорректно.
Конфаундинг — это совершенно другой случай. В отличие от ложной корреляции, конфаундинг указывает на реальную связь между переменными, но для её объяснения вам нужно учесть третью переменную.
Как понять, что корреляция не ложная
1. Тестирование на разных выборках и временных промежутках: если корреляция сохраняется в разных наборах данных и периодах времени, вероятность того, что она случайная, значительно снижается.
2. Множественные корреляции: если корреляция между X и Y сопровождается целым набором логичных согласованных изменений в других переменных, это может указывать на существование более сложного механизма.
3. Проверка механизма: существует ли правдоподобное объяснение, почему X связан с Y? Если да, то стоит более тщательно изучить возможный механизм.
Допустим, тщательный анализ показывает, что:
- В городе открывается всё больше кафе и ресторанов,
- Одновременно растёт число поставщиков фермерских продуктов,
- Увеличивается поток туристов.
Эти три переменные могут синхронно увеличиваться, и в данном случае связь не является ложной. Рост туризма стимулирует открытие новых заведений и увеличивает спрос на фермерские продукты. Это не просто совпадение по годам, а отражение реальной экономической взаимосвязи между переменными.
Заключительные мысли
Ложная корреляция — редкость, которую трудно встретить в тщательно спланированных исследованиях. Конфаундинг, напротив, распространён и требует особого внимания. Ложная корреляция — это мираж, а конфаундинг — это наличие реального механизма, которое требует тщательного анализа. Статистика — мощный инструмент для понимания сложных взаимосвязей. Не стоит отвергать данные только потому, что они кажутся странными или противоречат вашим ожиданиям.