Найти в Дзене
ИЦ "ГЕВИССТА"

Кривая Лоренца (Lorenz curve) и коэффициент Джини (Gini coefficient)

Кривая Лоренца – график, характеризующий неравномерность распределения доходов среди населения. По оси абсцисс откладывается доля населения, а по оси ординат — доля доходов в обществе в процентном отношении. Допустим, в компании работают 4 человека с суммарным доходом 10000$. Равномерное распределение дохода — это 2500$ + 2500$ + 2500$ + 2500$, неравномерное – 0$ + 1000$ + 2000$ + 7000$. Теперь оценим неравномерность для случая 6000$ + 1000$ + 2000$ + 1000$. Упорядочим сотрудников по возрастанию дохода (1000$, 1000$, 2000$, 6000$). Построим кривую Лоренца в координатах [процент сотрудников, процент дохода этих сотрудников] — идем по всем сотрудникам и откладываем точки. Для первого — [25%, 10%] — это сколько он составляет процентов от всего штата сотрудников и сколько процентов составляет его доход, для первого и второго — [50%, 20%] — это сколько они составляют процентов от всего штата и сколько процентов их доход, для первых трёх — [75%, 40%], для всех — [100%, 100%]. На рисунке ниже

Кривая Лоренца – график, характеризующий неравномерность распределения доходов среди населения. По оси абсцисс откладывается доля населения, а по оси ординат — доля доходов в обществе в процентном отношении.

Допустим, в компании работают 4 человека с суммарным доходом 10000$. Равномерное распределение дохода — это 2500$ + 2500$ + 2500$ + 2500$, неравномерное – 0$ + 1000$ + 2000$ + 7000$. Теперь оценим неравномерность для случая 6000$ + 1000$ + 2000$ + 1000$. Упорядочим сотрудников по возрастанию дохода (1000$, 1000$, 2000$, 6000$). Построим кривую Лоренца в координатах [процент сотрудников, процент дохода этих сотрудников] — идем по всем сотрудникам и откладываем точки. Для первого — [25%, 10%] — это сколько он составляет процентов от всего штата сотрудников и сколько процентов составляет его доход, для первого и второго — [50%, 20%] — это сколько они составляют процентов от всего штата и сколько процентов их доход, для первых трёх — [75%, 40%], для всех — [100%, 100%]. На рисунке ниже приведена кривая Лоренца для нашего примера.

Рис. 1 Пример кривой Лоренца
Рис. 1 Пример кривой Лоренца

Теперь выясним связь между кривой Лоренца и коэффициентом Джини.

Изначально коэффициент Джини был статистическим показателем степени расслоения общества относительно какого-либо экономического признака (годовой доход, имущество, недвижимость).

Коэффициент Джини вычисляется как отношение площади фигуры, образованной кривой Лоренца и линией равенства, к площади треугольника, образованного линией равенства и кривой неравенства.

На рисунке ниже построенная кривая Лоренца показана синим цветом. Линия равенства, которая соответствует равномерному распределению дохода, — красная диагональ. Кривая неравенства, которая соответствует неравномерному распределению дохода, – фиолетовая. Площадь A – это площадь, ограниченная кривой Лоренца и линией равенства. Площадь B – это площадь, ограниченная кривой неравенства и кривой Лоренца. Площадь A, поделённая на площадь A + B (площадь треугольника под диагональю – линией равенства), и есть коэффициент Джини.

Рис. 2 Коэффициент Джини – это площадь A,  поделенная на площадь A + B
Рис. 2 Коэффициент Джини – это площадь A, поделенная на площадь A + B

Коэффициент Джини тесно связан с AUC-ROC.

Допустим, у нас есть ROC-кривая.

Рис. 3 ROC-кривая. Источник: Афанасьев С., Смирнова А.  Gini & ROC & Precision-Recall: проблемы метрик в банковском моделировании // Риск-менеджмент в кредитной организации. — 2019. — N1. — С.36.
Рис. 3 ROC-кривая. Источник: Афанасьев С., Смирнова А. Gini & ROC & Precision-Recall: проблемы метрик в банковском моделировании // Риск-менеджмент в кредитной организации. — 2019. — N1. — С.36.

Площадь между диагональю и ROC-кривой обозначим как S_A. Площадь между ROC-кривой и кривой идеального классификатора (Г-образной кривой) обозначим как S_B.

Рис. 4 ROC-кривая. Источник: Афанасьев С., Смирнова А.  Gini & ROC & Precision-Recall: проблемы метрик в банковском моделировании // Риск-менеджмент в кредитной организации. — 2019. — N1. — С.36.
Рис. 4 ROC-кривая. Источник: Афанасьев С., Смирнова А. Gini & ROC & Precision-Recall: проблемы метрик в банковском моделировании // Риск-менеджмент в кредитной организации. — 2019. — N1. — С.36.

Мы могли бы перевернуть наш пример и представить в таком виде, по аналогии с примером, разобранным в самом начале этого раздела.

Рис. 5 Сравнение перевернутого графика ROC-кривой с примером, посвященным коэффициенту Джини.
Рис. 5 Сравнение перевернутого графика ROC-кривой с примером, посвященным коэффициенту Джини.

Аналогично тому, как в ранее разобранном примере индекс Джини равен площади A, поделённой на площадь A + B (площадь треугольника под диагональю – линией равенства), индекс Джини равен площади S_A между ROC-кривой и диагональю, поделённой на площадь S_A + S_B (всю площадь треугольника под диагональю – линией бесполезного классификатора, которая равна 0,5):

-6

Чтобы избавиться от дроби, умножаем числитель и знаменатель на 2:

-7

Таким образом, индекс Джини показывает, во сколько раз увеличение площади под кривой при применении нашей модели меньше увеличения площади под кривой при применении идеальной модели, когда эти площади сравниваются с площадью под диагональю (всегда равна 0,5).

Подробнее о взаимосвязи между AUC-ROC и коэффициентом Джини можно прочитать в этой статье https://habr.com/ru/company/ods/blog/350440/.

На собеседованиях нередко задают следующую задачу.

Если AUC-ROC увеличился на 0,1, то Gini...

• уменьшился на 0,1;

• остался неизменным;

• увеличился на 0,1;

• нет правильного ответа.

Среди ответов нет правильного, поскольку из формулы коэффициента Джини 2 x AUC-ROC – 1 становится ясно, что при увеличении AUC-ROC на 0,1, Джини увеличивается на 0,2.

Давайте вычислим коэффициент Джини для нашего примера с оттоком.

-8