Найти в Дзене
Обо всем понемногу

Корреляция - значит, взаимосвязь?

Статистика - как много в этом слове. Ильф и Петров писали:

Статистика знает все.
Точно учтено количество пахотной земли в СССР с подразделением на чернозем, суглинок и лёсс. Все граждане обоего пола записаны в аккуратные толстые книги, так хорошо известные Ипполиту Матвеевичу Воробьянинову, — книги загсов. Известно, сколько какой пищи съедает в год средний гражданин республики. Известно, сколько этот средний гражданин выпивает в среднем водки с примерным указанием потребляемой закуски. Известно, сколько в стране охотников, балерин, револьверных станков, собак всех пород, велосипедов, памятников, девушек, маяков и швейных машинок.
Как много жизни, полной пыла, страстей и мысли, глядит на нас со статистических таблиц!

Конечно, писатели иронизировали. Но сбор данных - это только часть возможностей статистического аппарата. Сегодня я хочу поговорить о таком понятии, как корреляция.

Источник фото - http://vmilovidov.livejournal.com/33708.html
Источник фото - http://vmilovidov.livejournal.com/33708.html

Корреляция - это статистическая взаимосвязь между несколькими случайными величинами. Часто ее трактуют, как связь между какими-либо переменными. Но всегда ли корреляция означает причинно-следственную связь?

Простой пример. Если верить статистике, то раком легких чаще болеют те, кто в течение рабочего дня делает много небольших перерывов, между этими этими параметрами (вероятность заболеть раком легких и количество перерывов) есть корреляция. Означает ли это, что лучше работать от звонка до звонка, не покидая рабочего места?
Конечно же, нет.

Стоит подумать, куда же расходуется большинство таких перерывов - и все станет понятным: к сожалению, это не просто перерывы, а перекуры. А курение - убивает.

Источник фото - http://by-trash.livejournal.com/851550.html
Источник фото - http://by-trash.livejournal.com/851550.html

Получается, что чисто математически можно найти связь между самыми разными вещами, хоть между популярностью светлых носков и длиной железнодорожных составов на Южно-Уральской железной дороге. Второй параметр выбрал не случайно: большую часть поста я писал в поезде, от руки.

-3

Логики в этой связи, правда, не будет никакой. Приведу немножко забавных примеров корреляции, найденных мной в интернете.

Расходы на научные, технические и космические исследования в США коррелируют с количеством самоубийств путем удушения и повешения с коэффициентом корреляции 0,99789126.

-4

А это “связь” между общим доходом от аркад и количеством защитившихся докторов в компьютерных науках. Коэффициент корреляции тут составляет 0,985065.

-5

В целом, графики могут использоваться для доказательств связи даже более убедительно, чем непонятные цифры. Вот как Google Trends сравнил поисковые запросы “тыква” и “global warming”

Явно видно, что сначала несколько русскоязычных людей ищут про тыквы - а потом гораздо большее количество начинает интересоваться глобальным потеплением на английском. Наверное, это неспроста:)

Про то, что количество пиратов “влияет” на среднюю земную температуру, знают многие, но вот графическое подтверждение:

Источник - http://natalyarukol.ru/2011/06/22/vliyanie-kolichestva-piratov-na-globalnoe-poteplenie/
Источник - http://natalyarukol.ru/2011/06/22/vliyanie-kolichestva-piratov-na-globalnoe-poteplenie/

Разбавлю скучные цифры фотографией Николаса Кейджа.

-8

Статистика утверждает, что чем чаще он появляется в фильмах, тем больше людей тонут, упав в бассейн:

-9

Коэффициент корреляции тут ниже, чем у предыдущих примеров, но все-таки высок: 0,666. И три шестерки - это тоже вряд ли случайность:)

Источник забавных корреляций - сайт http://www.tylervigen.com/spurious-correlations, любопытным советую его посмотреть.

Получается, что корреляция - бесполезная штука? Вовсе нет. У нее есть полезное свойство: она может отображать зависимости между действительно связанными вещами. Впервые “закон корреляции” разработал французский палеонтолог Кювье в XVIII веке. Конечно, он не выводил формулу расчета коэффициента и не рисовал красивые графики. Он объяснял так:

“Каждое животное приспособлено к той среде, в которой оно живёт, находит корм, укрывается от врагов, заботится о потомстве. Если это животное травоядное, его передние зубы приспособлены срывать траву, а коренные - растирать её. Массивные зубы, растирающие траву, требуют крупных и мощных челюстей и соответствующей жевательной мускулатуры. Стало быть, у такого животного должна быть тяжёлая, большая голова, а так как у него нет ни острых когтей, ни длинных клыков, чтобы отбиться от хищника, то оно отбивается рогами. Чтобы поддерживать тяжёлую голову и рога, нужны сильная шея и большие шейные позвонки с длинными отростками, к которым прикреплены мышцы."

Источник цитаты

Как это связано с современной статистикой? Благодаря выводам, к которым пришел Кювье: “Каждый организм образует единое замкнутое целое, в котором ни одна из частей не может измениться, чтоб не изменились при этом и другие”. Взаимосвязь между частями (читай - параметрами!) - вот что важно в работе Кювье. Палеонтолог предлагаю по найденным отдельным частям восстанавливать облик всего животного.

А формулу для расчета коэффициента предложил английский математик Пирсон.
Она выглядит следующим образом:

-10

X и Y тут - это как раз те самые параметры, между которыми мы находим связь.

Вообще, именно взаимосвязь между такими параметрами ищет статистика, ищет машинное обучение. Корреляция в этом играет не последнюю роль.

Таким образом, корреляция - один из рабочих методов для описания связи между различными переменными. Но к ней, как и к любому другому методу, нужно относиться с осторожностью. Ведь нет же связи между возрастом Мисс Америка и количеством смертей от ожогов. А корреляция - есть.
Учите статистику, включайте голову, да пребудет с Вами сила!

Наука
7 млн интересуются