1. Логика логистической регрессии
Многие социальные явления являются по своей природе бинарными, а не непрерывными или количественными – произошло событие или оно не произошло, человек купил товар или не купил.
Бинарные дискретные явления обычно принимают форму дихотомического индикатора. Хотя эти два значения можно представлять любыми числами, использование зависимых переменных со значениями 1 и 0 имеет свои преимущества. Среднее значение такой переменной равно доле случаев со значением 1 и может интерпретироваться как вероятность.
1.1. Проблемы обычной регрессии с бинарной зависимой переменной
На первый взгляд бинарная зависимая переменная со значениями 0 и 1 кажется подходящей для использования в множественной регрессии. Регрессионные коэффициенты имеют полезную интерпретацию – они показывают увеличение или уменьшение прогнозируемой вероятности возникновения события в силу изменения того или иного предиктора на единицу своего измерения.
Сама зависимая переменная принимает только значения 0 и 1, но предсказанные значения для регрессии принимают вид усредненных пропорций или вероятностей, зависящих от значений предикторов. Чем выше прогнозируемое значение или условное среднее значение, тем больше вероятность того, что с человеком, обладающим конкретными значениями характеристик (независимых переменных), произойдет интересующее событие. Линейная регрессия предполагает, что условные пропорции или вероятности задают прямую линию для значений X.
Например, в ходе опроса мы спросили респондентов, курят ли они. Присваиваем тем, кто курит, значение 1, а тем, кто не курит, – значение 0, и получаем бинарную зависимую переменную.
Если взять курение (S) как функцию от количества лет, потраченных на образование (E), и дамми-переменную для пола (G), где женщины получают код 1, то получится уравнение регрессии:
S=0,661-0,029∗E+0,004∗G.
Регрессионный коэффициент для образования показывает, что при увеличении количества лет, потраченных на образование, на 1 год, вероятность курения снижается на 0,029. Респонденты мужского пола без образования имеют спрогнозированную вероятность курения 0,661 (константа). У мужчины с 10-летним образованием спрогнозированная вероятность курения составляет 0,371 (0,661-0,029∗10+0,004∗0). Коэффициент при дамми-переменной показывает, что у женщин вероятность курения на 0,004 выше, чем у мужчин. Для женщин без образования спрогнозированная вероятность курения составляет 0,665 (0,661-0,029∗0+0,004∗1).
Несмотря на несложную интерпретацию коэффициентов для множественной регрессии с бинарной зависимой переменной, регрессионные оценки сталкиваются с двумя проблемами. Первая проблема носит концептуальный характер, а вторая носит статистический характер. В совокупности проблемы оказываются достаточно серьезными, чтобы потребовать альтернативу обычной регрессии с бинарной зависимой переменной.
1.1.1. Проблема, связанная с формой функциональной зависимости
Концептуальная проблема линейной регрессии с бинарной зависимой переменной связана с тем, что вероятности имеют максимальные и минимальные значения 1 и 0. По определению, вероятности и пропорции не могут превышать 1 или падать ниже 0. Однако линия линейной регрессии может простираться вверх к +∞, поскольку значения предикторов могут увеличиваться бесконечно, и простираться вниз к -∞, поскольку значения предикторов могут уменьшаться бесконечно. В зависимости от коэффициента наклона линии и наблюдаемых значений X модель может дать прогнозные значения зависимой переменной выше 1 и ниже 0. Такие значения не имеют смысла и малопригодны для прогнозирования.
Несколько графиков могут проиллюстрировать проблему.
Обычная диаграмма рассеяния, представляющая собой зависимость между двумя непрерывными переменными, показывает облако точек, как на рисунке слева. Здесь линия, проходящая через центр облака точек, минимизирует сумму квадратов отклонений. Мы видим, когда X принимает более высокие или более низкие значения, то же самое происходит и с Y.
Однако диаграмма рассеяния, представляющую собой зависимость между непрерывной независимой переменной и бинарной зависимой переменной, уже не представляет из себя облако точек. Вместо этого показаны два параллельных набора точек. Подгонка с помощью прямой линии кажется здесь менее уместной. Любая линия (за исключением линии с коэффициентом наклона 0) в конечном итоге превысит 1 и опустится ниже 0.
Некоторые области двух параллельных наборов точек могут содержать больше наблюдений, чем остальные и с помощью джиттеринга мы можем взглянуть на плотность наблюдений вдоль двух линий. Прибегнем к джиттерингу – технике визуализации данных, которая используется для усиления разброса между точками при их наложении друг на друга. Он уменьшает перекрытие точек на диаграмме рассеяния, добавляя случайную вариацию к каждому наблюдению. На рисунке подвергнутое джиттерингу распределение бинарной зависимой переменной (курит или не курит) по количеству лет, потраченных на образование, указывает на небольшую зависимость. Респонденты с большим количеством лет, потраченным на образование, курят реже, чем респонденты с меньшим количеством лет, потраченных на образование. Однако рисунок отличается от графика зависимости между непрерывными переменными.
Риск получения спрогнозированных вероятностей ниже 0 или выше 1 зависит не только от диапазона значений предиктора, но еще и от соотношения значений 0 и 1 бинарной зависимой переменной. При соотношении 50:50 спрогнозированные значения попадают в центр распределения вероятностей. В предыдущем примере с курением (где соотношение 28:72) самое низкое спрогнозированное значение 0,081 мы получаем для мужчин с максимальным количеством лет, потраченным на образование, т.е. проучившиеся 20 лет (0,661-0,029∗20+0,004∗0), а самое большое спрогнозированное значение 0,665 мы получаем для женщин с минимальным образованием, т.е. проучившиеся 0 лет (0,661-0,029∗0+0,004∗1). Теперь возьмем зависимую переменную с еще большой диспропорцией. Мы спрашиваем респондентов, стремятся ли они сохранить/защитить окружающую среду или нет. 10% ответили «да», мы их кодируем единицами, а остальных кодируем нулями. Регрессия по полу и образованию дает:
B=-0,024+0,008∗E-0,006∗G.
Константа показывает здесь бессмысленную вероятность того, что у мужчины без образования спрогнозированная вероятность принадлежности к группе «защитников природы» будет ниже нуля. Предположение о линейности, хоть и является общей проблемой, в этой конкретной модели оказывается особенно неуместным.
Одно из решений этой задачи предполагает, что любое значение, равное или превышающее 1, должно быть усечено до максимального значения 1. Линия регрессии будет прямой до этого максимального значения, но последующие изменения в X не будут иметь никакого влияния на зависимую переменную. То же самое можно было бы сказать и о малых значениях, для которых можно применить усечение в 0. Такой подход привел бы к внезапным разрывам нашей зависимости, в результате чего в определенных точках влияние X на Y немедленно стало бы нулевым (смотрим рис. 3).
Однако помимо усеченной линейности больший смысл может иметь другой, S-образный вид функциональной зависимости. Мы можем задать «пол» и «потолок», при этом предположить, что влияние предиктора на зависимую переменную (при изменении предиктора на единицу своего измерения) будет меньше в районе «пола» и «потолка», чем посередине. Таким образом, вводим нелинейность. В центре нашей зависимости нелинейная кривая может аппроксимировать линейность, но вместо бесконечного движения вверх или вниз, нелинейная кривая, приближаясь к 0 или 1 по оси Y, медленно и плавно изгибается по оси X. По мере приближения к 0 или 1 по оси Y требуется все большее изменение предиктора, чтобы оказать такое же влияние на зависимую переменную, что и меньшее изменение предиктора в середине кривой. Для изменения вероятности возникновения события с 0,95 до 0,96, требуется большее изменение X, чем для изменения вероятности события с 0,45 до 0,46.
Итак, главный принцип нашей зависимости заключается в том, что одно и то же изменение предиктора оказывает меньшее влияние на зависимую переменную в районе «потолка» и «пола» и нашему предиктору потребуется гораздо большее изменение, чтобы оказать то же самое влияние на зависимую переменную в районе «потолка» и «пола».
Проиллюстрируем нелинейную зависимость на нескольких примерах. Если доход увеличивает вероятность владения домом, то увеличение дохода на 10 тысяч долларов с 40 000 до 50 000 долларов увеличит эту вероятность в большей степени, нежели увеличение дохода с 200 000 до 210 000 долларов. Без сомнения, люди с высоким доходом уже имеют высокую вероятность владения жильем, а увеличение на 10 000 долларов незначительно увеличило бы их и без того высокую вероятность владения домом. То же самое можно сказать и об увеличении дохода с 0 до 10 000 долларов: поскольку обе суммы вряд ли будет достаточными для покупки дома, увеличение дохода мало повлияет на возможность обладать собственностью. Однако в середине диапазона дополнительные 10 000 долларов могут иметь значение в плане прогнозирования наличия/отсутствия дома.
Аналогичным образом, увеличение возраста на 1 год влияет на вероятность вступления в брак гораздо сильнее в раннем молодом возрасте, нежели в совсем юном или зрелом возрасте. Мало кто женится в возрасте до 15 лет, даже если он и становится на 1 год старше, и мало кто, будучи холостым в 50 лет, женится в 51 год. Однако изменение возраста с 21 до 22 лет может привести к существенному увеличению вероятности вступления в брак.
Подобные рассуждения применимы и во многих других случаях: влияние количества сверстников с девиантным поведением на вероятность совершения тяжкого преступления, влияние продолжительности рабочего времени женщин на вероятность рождения ребенка, влияние употребления алкоголя на преждевременную смерть – вероятно, сильнее в средних значениях диапазонов независимых переменных, чем в крайних случаях.
Более подходящая нелинейная зависимость будет выглядеть так, как показано на рис. 4, на котором кривая выравнивается и приближается к «потолку», определяемому значением 1 по оси Y, и к «полу», определяемому значением 0 по оси Y. Для аппроксимации кривой потребуется последовательность прямых линий, каждая из которых будет иметь разные коэффициенты наклона. Линии ближе к потолку и полу будут иметь меньшие коэффициенты наклона, чем в середине. Тем не менее, постоянно меняющаяся кривая более плавно и адекватно представляет зависимость. Концептуально S-образная кривая имеет больший смысл, чем прямая.
В пределах диапазона выборочных значений линия линейной регрессии может аппроксимировать криволинейную зависимость, принимая среднее значение различных коэффициентов наклона, подразумеваемых кривой. Тем не менее, линейность все еще неадекватно представляет фактические зависимости в середине и переоценивает зависимости в экстремальных значениях (если только у предиктора не отсутствуют значения в области, где кривая почти линейна). На рис. 5 мы сравниваем S-образную кривую с прямой линией. Разрыв между ними иллюстрирует природу ошибки и потенциальную неточность линейной регрессии.
Помимо нелинейности «потолок» и «пол» создают еще одну концептуальную проблему в обычной регрессии с бинарной зависимой переменной. Регрессия обычно предполагает аддитивность, т.е. влияние одной переменной на зависимую переменную остается неизменным независимо от уровней других независимых переменных. Модели могут включать отобранные произведения членов для учета неаддитивности, но бинарная зависимая переменная, вероятно, нарушает предположение об аддитивности для всех комбинаций независимых переменных. Если значение одной независимой переменной достигает достаточно высокого уровня, чтобы сдвинуть вероятность зависимой переменной к 1 (или к 0), то влияние остальных переменных не может увеличиться. Таким образом, «потолок» и «пол» делают влияние всех независимых переменных по своей природе неаддитивным и интерактивным.
Вернемся к примеру с курением. Люди с 20-летним образованием имеют настолько низкую вероятность курения, что между мужчинами и женщинами может существовать лишь небольшая разница. Иными словами, пол может слабо влиять на курение при высоком уровне образования. Напротив, более выраженная разница между полами, возможно, проявляется, когда уровень образования ниже, а вероятность курения выше. Хотя влияние пола на курение, вероятно, зависит от уровня образования, аддитивные регрессионные модели ошибочно предполагают, что влияние пола на курение одинаково для всех уровней образования (а влияние образования одинаково для обоих полов).