Мультиколлинеарность – это наличие высокой взаимной корреляции между двумя или более независимыми переменными в модели Регрессии (Regression). Мультиколлинеарность может привести к искаженным или вводящим в заблуждение результатам, когда исследователь или аналитик пытается определить, насколько эффективно каждая независимая переменная может быть использована наиболее для прогнозирования значения Целевой переменной (Target Variable) в статистической модели.
В общем, мультиколлинеарность может привести к более широким Доверительным интервалам (Confidence Interval), которые дают менее надежные вероятности с точки зрения влияния независимых переменных в Модели (Model). То есть статистические выводы из нее могут быть ненадежными.
Примером может служить многомерная регрессионная модель, которая пытается предвидеть доходность акций на основе таких элементов, как отношение цены к прибыли (отношения P / E), рыночная капитализация или другие данные. Доходность акций является целевой переменной, а различные части финансовых данных – переменными-предикторами (Predictor Variable).
Мультиколлинеарность в модели множественной регрессии указывает на то, что коллинеарные независимые переменные каким-то образом связаны, хотя взаимосвязь может быть, а может и не быть случайной. Например, прошлые результаты могут быть связаны с рыночной капитализацией, поскольку акции, показавшие хорошие результаты в прошлом, будут иметь растущую рыночную стоимость.
Другими словами, мультиколлинеарность может существовать, когда две независимые переменные сильно коррелированы. Это также может произойти, если независимая переменная вычисляется из других переменных в наборе данных или если две независимые переменные дают аналогичные и повторяющиеся результаты.
Один из наиболее распространенных способов устранения проблемы мультиколлинеарности - удаление всех таких переменных, кроме одной. Также можно устранить мультиколлинеарность, объединив две или более коллинеарных переменных в одну искусственную переменную. Затем можно провести статистический анализ для изучения взаимосвязи между указанной зависимой переменной и только одной независимой переменной.
На изображении выше два предиктора – площадь поверхности тела (Body surface area) и вес (Weight) сильно коррелированы, что подразумевает наличие мультиколлинеарности. Чтобы правильно предсказать кровяное давление (blood pressure), эти признаки стоит, к примеру, объединить.
В сфере инвестирования аналитики рынка хотят избегать использования технических индикаторов, которые коллинеарны из следующих соображений: они основаны на очень похожих или связанных исходных данных, склонны выявлять аналогичные прогнозы относительно зависимой переменной движения цены. Вместо этого анализ рынка должен основываться на разных независимых переменных, чтобы гарантировать всесторонний анализ.
Автор оригинальной статьи: Gordon Scott
Понравилась статья? Поддержите нас, поделившись статьей в социальных сетях и подписавшись на канал. И попробуйте курсы на Udemy.