Найти тему
ИЦ "ГЕВИССТА"

Логистическая регрессия (часть 2)

Оглавление

1. Логика логистической регрессии

1.1. Проблемы обычной регрессии с бинарной зависимой переменной

1.1.2. Проблема достоверности статистического вывода

Даже если в некоторых случаях прямая линия аппроксимирует нелинейные зависимости, возникают некоторые проблемы, которые снижают эффективность оценок, несмотря на то, что оценки остаются несмещенными. Проблемы связаны с тем, что регрессия с бинарной зависимой переменной нарушает предположения о нормальности и гомоскедастичности. Обе эти проблемы возникают по причине существования только двух наблюдаемых значений для зависимой переменной. Линейная регрессия предполагает, что в генеральной совокупности ошибки модели подчиняются нормальному распределению, а дисперсия ошибок для каждого значения X одинакова. Одним словом, у нас должно быть нормальное распределение ошибок с одинаковой дисперсией.

Однако в случае с бинарной зависимой переменной только два значения Y и только два остатка существуют для любого отдельного значения X. Для любого значения X_i прогнозируемая вероятность равна b_0 + b_1X_i. Следовательно, остатки принимают значение

1 – (b_0 + b_1X_i), когда Y_i равно 1

и

0 – (b_0 + b_1X_i), когда Y_i равно 0.

Даже в генеральной совокупности распределение ошибок для любого значения X не может быть нормальным, если распределение имеет только два значения.

Кроме того, у нас нарушается предположение о гомоскедастичности или постоянстве дисперсии, поскольку ошибка регрессии изменяется со значением X. Чтобы проиллюстрировать это графически, посмотрите на рисунок внизу, на котором показана зависимость между X и бинарной зависимой переменной. Подгонка с помощью прямой линии, идущей от нижнего левого к верхнему правому углу рисунка, будет определять остатки как вертикальное расстояние от точек до линии. Вблизи нижних и верхних экстремальных значений X, где линия приближается к полу 0 и потолку 1, остатки относительно невелики. Вблизи средних значений X, где линия находится на полпути между потолком и полом, остатки становятся большими. В результате дисперсия ошибок не является постоянной.

Рис. 1 Диаграмма рассеяния для бинарной зависимой переменной
Рис. 1 Диаграмма рассеяния для бинарной зависимой переменной

Если нарушение предположения о нормальности создает мало проблем при работе на больших выборках, гетероскедастичность имеет более серьезные последствия. Выборочные оценки коэффициентов регрессии являются несмещенными, но они больше не характеризуются наименьшей дисперсией и выборочные оценки стандартных ошибок будут смещенными. Таким образом, даже при больших выборках стандартные ошибки при наличии гетероскедастичности будут некорректными, а тесты значимости будут невалидными (непригодными). Технически метод взвешенных наименьших квадратов может решить эту проблему, однако не решаются концептуальные проблемы нелинейности и неаддитивности, что более важно. Поэтому использование регрессии с бинарной зависимой переменной остается неуместным.

Наука
7 млн интересуются