Парадокс Симпсона — статистический парадокс, согласно которому фактор, больше проявляющийся при любых фоновых условиях, чем противоположный ему, проигрывает менее эффективному, но относительно часто встречающемуся фактору. Познакомлю вас с понятиями категоризации данных и парадокс Симпсона. Для начала давайте посмотрим что за метод будет использоваться сегодня. Небольшая преамбула: метод value_counts(), который мы сейчас будем использовать, определяет уникальные значения и возвращает таблицу, где подсчитывает, сколько раз они встретились в серии, причем в нисходящем порядке. У этого метода есть несколько параметров, такие как нормализация, сортировка, отображение восходящем порядке, категоризация и исключение ячейки с отсутствующим значением. Посмотрите, в правой части слайда мы создаем серию под названием index и присваиваем ей набор целочисленных значений и включаем одно отсутствующее, затем, используя метод value_counts(), мы определяем сколько раз то или иное число встретилась в эт