1. Логика логистической регрессии
I.3. Преобразование вероятностей в логиты
Логит тесно связан с понятиями «вероятность» и «шанс».
Вероятность – это объективная мера появления некоторого события, измеряемая от 0 до 1. На практике оценкой вероятности служит относительная частота появления события. Значение вероятности 0 означает невозможность появления события. Значение вероятности 1 означает, что событие непременно произойдет.
Шансы – это отношение вероятности того, что событие произойдет, к вероятности того, что событие не произойдет. Можно еще сказать так: шансы – это отношение вероятности наступления события к вероятности ненаступления события. Вероятность наступления события часто называют просто вероятностью события и когда вы встречаете фразы «вычислить вероятность», «оценить влияние предикторов на вероятности» в контексте логистической регрессии, то речь идет именно о вероятности события. С ростом вероятности растут шансы, и наоборот. Значение шансов 1 соответствует ситуации, когда вероятности наступления события и ненаступления события равны.
Наконец, логит – это натуральный логарифм шансов.
Поупражняемся вычислять шансы и логиты.
Например, если P_i для первого наблюдения равно 0,2, то шансы равны 0,25 или 0,2/0,8, а логит равен -1,386, т.е. натуральному логарифму шансов.
Если P_i для второго наблюдения равно 0,7, то шансы равны 2,33 или 0,7/0,3, а логит равен 0,847.
Если P_i для третьего наблюдения равно 0,9, то шансы равны 9 или 0,9/0,1, а логит равен 2,197.
Хотя формула преобразования вероятностей в логиты проста, требуется некоторое объяснение, чтобы проиллюстрировать ее полезность. Оказывается, она прекрасно описывает зависимость между предикторами и распределением вероятностей, определяемым бинарной зависимой переменной. Формула включает два шага: на первом шаге мы берем отношение вероятности, что событие произойдет, к вероятности, что событие не произойдет, P_i / (1 – P_i) и получаем шансы возникновения события; на втором шаге берем натуральный логарифм шансов и получаем логит. Давайте подробнее раскроем смысл шансов, которые мы получаем на первом шаге формулы.
1.3.1. Смысл шансов
Итак, вычисление логита начинается с преобразования вероятностей в шансы. Вероятности варьируют от 0 до 1. И вероятность, и шансы имеют нижний предел, равный нулю, и оба выражают растущую вероятность события по мере увеличения положительных чисел, но в остальном они различаются.
В отличие от вероятности шансы не имеют верхней границы или «потолка». Когда вероятность становится ближе к 1, числитель в формуле шансов становится больше относительно знаменателя, и шансы постоянно растут. Таким образом, шансы значительно увеличиваются, когда вероятности незначительно изменяются вблизи их верхней границы 1. Например, вероятности 0,99, 0,999, 0,9999, 0,99999 и т.д. дают шансы 99, 999, 9999, 99999 и т.д. Незначительные изменения вероятностей приводят к огромным изменениям шансов и показывают, что шансы бесконечно увеличиваются по мере того, как вероятности становятся все ближе и ближе к 1.
Чтобы проиллюстрировать взаимосвязь между вероятностями и шансами, рассмотрим значения
Обратите внимание, что когда вероятность равна 0,5, шансы равны 1 или одинаковы.
Часто шансы выражают как отношение числа к единице. Например, если вероятность просрочки 90+ (событие произошло) равна 0,8, тогда вероятность отсутствия просрочки 90+ (событие не произошло) равна 1 – 0,8 = 0,2, шансы наличия просрочки 90+ равны 0,8 / 0,2 = 4. Это означает, что шансы наличия просрочки 90+ составляют 4 к 1. Шансы отсутствия просрочки 90+ будут равны 0,2 / 0,8 = 0,25. Выглядит немного странно, но действительно шансы отсутствия просрочки 90+ будут равны 1 к 4. Шансы наличия просрочки 90+ и шансы отсутствия просрочки 90+ являются обратными величинами по отношению друг к другу, т. е. 1 / 4 = 0,25 и 1 / 0,25 = 4.
Шансы больше 1 означают, что вероятность возникновения события больше вероятности отсутствия события. Шансы 9 означают, что вероятность возникновения события в 9 раз больше вероятности отсутствия события. Например, вероятность наличия просрочки равна 0,9, а вероятность отсутствия просрочки равна 0,1, 0,9/0,1 = 9. Шансы меньше 1 означают, что вероятность возникновения события меньше вероятности отсутствия события. Шансы 0,111 означают, что вероятность возникновения события в 0,111 раз меньше вероятности отсутствия события. Например, вероятность наличия просрочки равна 0,1, а вероятность отсутствия просрочки равна 0,9, 0,1/0,9 = 0,111. Шансы, равные 1, означают, что вероятности возникновения события и отсутствия события равны.
Манипуляции с формулой вычисления шансов дает более глубокое понимание их связи с вероятностями. Определив шансы O_i как отношение вероятности события к единице минус вероятность события, мы можем с помощью простой алгебры выразить вероятность в терминах шансов:
Вероятность равна шансам, поделенным на единицу плюс шансы. В нашем примере с просрочкой 90+ мы, зная шансы P_i/(1 – P_i) = 0,8/(1–0,8)=0,8/0,2=4, можем легко получить вероятность по формуле O_i/(1 + O_i) = 4/(1+4)=4/5=0,8.
Из формулы O_i/(1 + O_i) становится понятно, что вероятность никогда не может быть равна или превышать единицу: независимо от того, насколько большими стали шансы в числителе, они всегда будут на единицу меньше шансов в знаменателе. Конечно, когда шансы станут большими, разница между шансами и шансами плюс единица станет относительно небольшой, и вероятность приблизится к 1 (но не достигнет ее). И, наоборот, вероятность никогда не может упасть ниже 0. Если шансы равны 0 или превышают его, то вероятность должна быть равна 0 или превышать его. Вероятность становится все ближе к 0 по мере того, как шансы становятся все ближе к 0.
Не путайте шансы с отношениями шансов (odds ratio). Шансы – это отношение вероятностей, тогда как отношение шансов – это именно отношение шансов или отношение отношений вероятностей. Например, согласно опросу, 29,5% мужчин и 13,1% женщин владеют оружием. Поскольку шансы владеть оружием для мужчин равны 0,418 (0,295/0,705), это означает, что 4 мужчины с оружием приходятся на 10 мужчин без оружия. Шансы владеть оружием для женщин равны 0,151 (0,131/0,869), это означает, что примерно 1,5 женщины с оружием приходятся на 10 женщин без оружия. Отношение шансов равно 0,418/0,151 = 2,77. Это означает, что шансы владеть оружием у мужчин почти в три раза выше, чем у женщин.