Коэффициент Джини (индекс Джини) – 1. (в статистике) показатель, характеризующий неравенство доходов населения. 2. (в машинном обучении) метрика, характеризующая эффективность некоторых моделей, таких как Дерево решений (Decision Tree). Пример расчета Джини Давайте разберемся с расчетом Джини на простом примере. У нас есть в общей сложности 10 точек данных двух классов – красного и синего: При создании дерева решений нам нужно разделить эти наблюдения на две ветви. Рассмотрим следующее разделение на 5 красных и 5 синих. Предположим, мы делаем бинарное разделение по X = 200: Видно, что разделение выполнено правильно: у нас осталось две ветви по 5 красных (левая) и 5 синих (правая). Но каков будет результат, если дерево произведет расщепление по X=250? У нас осталось две ветви, левая ветвь состоит из 5 красных и 1 синей, а правая ветвь состоит из 4 синих: Это называется несовершенным разделением. При обучении дерева решений мы используем индекс Джини как меру его эффективности. Чтобы рас