Корреляция - статистическая взаимосвязь случайных количественных величин, вероятное влияние одного события на другое. Некоторые исследователи считают, что корреляция не отображает причинно-следственные связи, а помогает в этом именно регрессия. То есть для определения истинности корреляции используют регрессионный анализ.
Регрессионный анализ - определяет отношения между зависимой и независимыми переменными. Позволяет моделировать отношения и прогнозировать значения. Математики различают 5 видов регрессий.
Ложная корреляция (или надуманность) - связь между двумя переменными, которая таковой в действительности не является (одно событие не влияет на другое).
При ложной корреляции наблюдаемые зависимости обусловлены третьим фактором, случайностью, неизвестным источником помех, небольшими размерами выборки или выбросами. Четкое параллельное или крестообразное движение на графике сбивает с толку. То, что два события кажутся связанными - не означает, что на них не действуют другие факторы.
Как еще повысить достоверность вывода?
- Рассуждать логично;
- Подвергнуть сомнению взаимосвязь, и рассмотреть противоположный исход (альтернативную гипотезу);
- Обеспечить надлежащую репрезентативную выборку;
- При анализе двух количественных показателей между подобными группами учитывать соразмерность показателей, их вес и приводить их к общему знаменателю - использовать приведенные показатели (оперировать не абсолютными величинами, а относительными);
- Опасаться выбросов;
- Использовать нулевую гипотезу и проверку на сильное p-значение;
- Использовать статистическую модель - включить в нее все, что может повлиять на результаты;
- Работать с большим количеством переменных (учитывать разные факторы).
- Провести разведывательный анализ при помощи тепловой карты (в Питоне пакет seaborn):
- Пожалуй, самое важное, применить регрессионный анализ (в Питоне пакет scikit-learn):
Пример ложного вывода при оперировании абсолютными, а не относительными величинами:
- При адекватном расчете ВВП, как индикатора уровня комфорта жизни человека в стране, следует учитывать не просто весь объем произведенных товаров и услуг в долларах как международной валюте для сравнения с другими странами, но и паритет покупательской способности (ППС) местной валюты по отношению к другим валютам.
- Когда мы хотим понять в каких регионах вероятнее всего угонят вашу машину, нужно не просто смотреть количество угонов по регионам, а приводить отношение количества угонов к количеству населения в этих регионах.
А что вам помогает выявляет ложную корреляцию и взаимосвязь? Есть что добавить или поправить? Пишите в комментариях.
Подписывайтесь на мой Telegram-канал аналитика данных https://t.me/analytic_channel