🚀 Всем data привет! Вам необходимо проверять сходство или различие данных? Возможно, вы уже используете некоторые методы в своей работе или учебе. В этой статье я подробно рассмотрю три подхода к оценке данных: Мы пошагово разберём, как рассчитывать эти популярные метрики с визуальными примерами. Весь код и дополнительные комментарии доступны на моём GitHub. Population Stability Index (PSI) — это метрика, оценивающая изменения в распределении данных между двумя временными периодами или наборами данных. Она часто используется в кредитном скоринге и других областях, где важно отслеживать стабильность данных и ML моделей. PSI помогает выявить значительные изменения в данных, которые могут указывать на проблемы, такие как ухудшение качества данных, изменения в поведении клиентов или необходимость обновления ML модели. Получаем два распределения данных и сравниваем их визуально. Разбиваем данные на n бинов (например, 4). Считаем количество элементов в каждом бине для обоих распределений. В