Найти в Дзене

Gini в Машинном обучении простыми словами

Полосатая земляная белка. Фото: Getty Imagesи по
Полосатая земляная белка. Фото: Getty Imagesи по

Коэффициент Джини (индекс Джини) – 1. (в статистике) показатель, характеризующий неравенство доходов населения. 2. (в машинном обучении) метрика, характеризующая эффективность некоторых моделей, таких как Дерево решений (Decision Tree).

-2

Пример расчета Джини

Давайте разберемся с расчетом Джини на простом примере. У нас есть в общей сложности 10 точек данных двух классов – красного и синего:

-3

При создании дерева решений нам нужно разделить эти наблюдения на две ветви. Рассмотрим следующее разделение на 5 красных и 5 синих. Предположим, мы делаем бинарное разделение по X = 200:

-4

Видно, что разделение выполнено правильно: у нас осталось две ветви по 5 красных (левая) и 5 синих (правая).

Но каков будет результат, если дерево произведет расщепление по X=250? У нас осталось две ветви, левая ветвь состоит из 5 красных и 1 синей, а правая ветвь состоит из 4 синих:

-5

Это называется несовершенным разделением. При обучении дерева решений мы используем индекс Джини как меру его эффективности.

Чтобы рассчитать этот показатель:

  • Мы будем случайным образом выбирать любую точку данных из набора.
  • Случайным образом мы будем классифицировать ее в соответствии с распределением классов в данном наборе данных. В нашем наборе данных мы дадим любой точке вероятность 5/10 принадлежать красной группе и 5/10 – синей, поскольку существует пять точек данных каждого цвета.

Теперь рассчитаем индекс Джини по формуле:

-6

В приведенном выше примере мы имеем два класса (C = 2) и 50% вероятность у точки принадлежать любому из двух классов (p1 = p2 = 0,5). Следовательно, индекс Джини можно рассчитать как:

-7

Теперь давайте рассчитаем Примесь Джини (Gini Impurity). При идеальном разделении левая ветвь имеет только красные цвета, и, следовательно, ее примесь Джини:

-8

Правая ветвь также имеет только синие точки, и, следовательно, ее примесь Джини также равна нулю:

-9

Как левая, так и правая ветви нашего идеального сплита имеют вероятность попадания чужеродной точки, равную нулю. Примесь Джини, равная 0, является наилучшим возможным вариантом.

Автор оригинальной статьи: MK Gurucharan

Подари чашку кофе дата-сайентисту ↑
Подари чашку кофе дата-сайентисту ↑