Simpson Paradox в Статистическом обучении
Парадокс Симпсона — статистический парадокс, согласно которому фактор, больше проявляющийся при любых фоновых условиях, чем противоположный ему, проигрывает менее эффективному, но относительно часто встречающемуся фактору. Познакомлю вас с понятиями категоризации данных и парадокс Симпсона. Для начала давайте посмотрим что за метод будет использоваться сегодня. Небольшая преамбула: метод value_counts(), который мы сейчас будем использовать, определяет уникальные значения и возвращает таблицу, где подсчитывает, сколько раз они встретились в серии, причем в нисходящем порядке...