Найти тему
Властелин машин

Заполнение пропусков категориальной модой

Рассмотрим способы заполнения категориального столбца наиболее частой категорией. Для демонстрации будем работать со следующим датафреймом:

Для вычисления моды можно использовать метод mode, который возвращает набор наиболее часто встречающихся категорий (возможно пустой):

-2

пустая для категории (колонка gr_id) = 3:

-3

Так можно заполнить модой все пропуски:

-4

Вот пример, когда заполнение надо сделать более дифференцированным способом, например, по группе:

-5

Если кто-то не знаком с transform можете подробнее прочитать здесь.

Альтернативным способом является использование value_counts и idmax:

-6

Сработает и так:

-7
-8