Найти тему

Корреляция. Записки на полях книги "Почему". Часть третья

Оглавление

Этой мой третий пост - записки на полях книги Саманты Клейберг “Почему. Руководство по поиску причин и принятию решений”.

Ссылки:

Буду ли публиковать продолжение (следующие посты по этой книге - не знаю), но настоятельно рекомендую эту книгу всем руководителям и консультантам. Оно (=потраченное время на её внимательное чтение) того (=улучшение качества принимаемых решений) стоит.

Корреляция. Почему множество каузальных утверждений ошибочны

Фраза «корреляция не обязательно означает причинно-следственную связь» прочно вбита в мозги любого студента, изучающего статистику; но даже те, кто понимает это высказывание и согласен с ним, порой не могут удержаться от попыток трактовать связи как причинные зависимости.

Иными словами, корреляция – это одно из основополагающих заключений, которые мы способны сделать, и свидетельство в пользу наличия причинной взаимосвязи.

Без вариации нет корреляции

И тем не менее широко распространена ситуация, когда анализируются только факторы, ведущие к определенному исходу. Только представьте, насколько часто победителей спрашивают, как именно они добились успеха, а потом стараются этот успех воспроизвести, выполняя в точности те же действия. Подобный подход полон недостатков по многим причинам, включая то, что люди просто не слишком хорошо умеют определять существенные факторы, недооценивают роль случайностей и переоценивают свои способности.

В результате мы не только путаем факторы, которые по чистой случайности сопутствуют желаемому эффекту, с теми, которые действительно его обеспечивают, но и видим иллюзорные корреляции там, где их нет.

К примеру, многие интересуются, действительно ли музыкальное образование соотносится с профессиональными успехами в других областях. Даже если мы обнаружим, что многие успешные люди (как бы мы ни определяли успех) играют на музыкальных инструментах, эти ничего не скажет о существовании корреляции – не говоря уже о причинно-следственной связи. Если напрямую спросить, верят ли они, что музыка помогает развивать и другие способности, многие, безусловно, отметят некую взаимосвязь. Но с гораздо меньшей вероятностью они сделают это, если интересоваться конкретно умением играть в шахматы, быстро бегать или тем, сколько кофе вы выпиваете каждый день.

Беседы с победителями бесполезны, поскольку можно сделать то же самое, но не преуспеть. Возможно, все кандидаты оформляют заявки на грант шрифтом Times New Roman (а значит, те, кто не получил гранты, порекомендуют использовать другой шрифт), а может, успешные кандидаты получили грант, несмотря на избыточное количество иллюстраций в документах. Не зная совокупности положительных и отрицательных примеров, мы не сможем даже предположить наличие корреляции.

Корреляция: измерение и интерпретация

Или мы захотели узнать, насколько сильна корреляция между тем, где человек живет, и его умением водить машину. Мера, о которой мы говорили до сих пор, применяется для неквантованных данных, таких как цены на акции, а не дискретных, таких как местонахождение или киножанр. Если у нас всего две переменные, каждая из которых принимает только два значения, лучше взять упрощенный вариант коэффициента корреляции Пирсона – так называемый фи-коэффициент.

Важно помнить, что, помимо математических причин, по которым можно распознать ложные корреляции, есть еще наблюдение за данными, позволяющее найти ложные паттерны. Некоторые из когнитивных смещений, заставляющие нас видеть соотношение несвязанных факторов, также сходны с ошибкой отбора.

К примеру, предвзятость подтверждения заставляет искать доказательства в пользу определенного убеждения. Иными словами, если вы верите, что лекарство вызывает некий побочный эффект, вы приметесь читать в интернете отзывы тех, кто уже принимал его и наблюдал это действие. Но таким образом вы игнорируете весь набор данных, не поддерживающих вашу гипотезу, вместо того чтобы искать свидетельства, которые, возможно, заставят ее переоценить.

Предвзятость подтверждения также может заставить вас отказаться от свидетельств, противоречащих вашей гипотезе; вы можете предположить, что источник сведений ненадежен или что исследование основывалось на ошибочных экспериментальных методах.

Помимо предвзятости с точки зрения доказательств, может случиться ошибка интерпретации аргументов. Если в ходе «неслепого» тестирования нового лекарства доктор помнит, что пациент принимает это средство и считает, что оно ему помогает, то может начать искать признаки его эффективности. Поскольку многие параметры субъективны (например, подвижность или усталость), это может привести к отклонениям в оценке данных индикаторов и логическим заключениям о наличии несуществующих корреляций.

Есть и специфическая форма предвзятости подтверждения – иллюзорная корреляция. Она означает поиск соотношения там, где его нет. Это подобно ошибке отбора, поскольку одной из причин выявления неверной корреляции может быть концентрация на одном сегменте информации. Если вы прогнозируете отрицательное соотношение переменных, легко сосредоточите внимание на небольших сегментах целого, подтверждающих ваш прогноз. И такой случай относится к предвзятости подтверждения: можно сфокусировать внимание на определенных данных, повинуясь сформированным убеждениям. В случае с артритом и погодой люди, возможно, придают слишком большое значение определенным фактам (отбрасывая проявившиеся симптомы при хорошей погоде и придавая особое значение таким же при плохой) или видят доказательства там, где их нет (по-разному отмечают заболевание в зависимости от погоды и от ожидаемой связи того и другого).

Итак, хотя корреляции способны быть полезными для прогнозирования, прогнозы могут оказаться неверными, а измеренная корреляция – ложной.

Почему корреляция не причинно-следственная связь

Первое – меры корреляции симметричны. Соотношение роста и возраста в точности соответствует зависимости между возрастом и ростом. С другой стороны, причинно-следственная связь может быть асимметрична.

Ошибочные корреляции могут возникать по многим причинам.

Выявив корреляцию между двумя переменными, нужно проверить, способен ли подобный неизмеренный фактор (общая причина) объяснить эту взаимосвязь.В ряде случаев (о которых мы поговорим в главе 4) таким общим фактором оказывается время.

Причинность без корреляции

Мы часто спорим, почему корреляция может не иметь причинного характера, но важно признать, что также могут существовать истинные причинные взаимосвязи без видимого соотношения. То есть корреляцию нельзя считать демонстрацией причинности, и выявление взаимосвязи также не необходимое условие причинности.

Известен пример, именуемый парадоксом Симпсона. В общем, даже если в рамках неких подгрупп есть взаимосвязь (скажем, тестируемый препарат в сравнении с известным лекарством улучшает результаты у некой группы населения), мы можем не обнаружить зависимости или найти, но обратную, если подгруппы объединить.

В качестве еще одного примера причинности без корреляции рассмотрим влияние длительных пробежек на вес. Да, пробежки могут снижать вес за счет траты калорий, но бег также приводит к повышению аппетита, что, в свою очередь, ведет к увеличению веса (и, таким образом, отрицательно влияет на его потерю). В зависимости от силы каждого конкретного воздействия или исследуемых данных положительный эффект пробежек может полностью нивелироваться отрицательным, а значит, между бегом и потерей веса соотношения не будет.

Причина обладает положительными и отрицательными воздействиями, которые осуществляются различными путями; вот почему мы можем либо не наблюдать корреляции вообще, либо наблюдать нечто близкое к ней (вспомним: любые меры не абсолютны).

Мы уже рассмотрели причины, по которым невозможно обнаружить существующую корреляцию (например, ошибка отбора, недостаточная вариация, предвзятость подтверждения, нелинейные зависимости и т. д.), и часто можно услышать, что соотношение не обязательно предполагает причинность. Но важно помнить об обратном: причинно-следственная связь не всегда подразумевает корреляцию.