Найти в Дзене
Властелин машин

3 неожиданности при группировке Pandas датафрейма

Рассмотрим кейсы на примере следующего датафрейма: Пропажа Nan-ов Сгруппируем данные по полю id и распределим сумму в value по всем членам поровну с записью в value_new: Члены с id равным Nan удалены из результата, чтобы их включить, достаточно установить параметр dropna в False: Сумма Nan-ов дает числовой результат Результаты выше свидетельствуют, о том, что запись с id=1 имеет value = Nan, однако сумма по полю дает 0 и в итоге value_new=0. Еще более явно: Операция для группы Nan-ов дает результат Из результатов группировки выше видно, что для записей с id=Nan в value_new записывается числовой результат. В целом перечисленные выше особенности бросаются в глаза при работе с маленьким датафреймом, но когда датасет большой, лучше быть готовым к таким сюрпризам.
Оглавление

Рассмотрим кейсы на примере следующего датафрейма:

Пропажа Nan-ов

Сгруппируем данные по полю id и распределим сумму в value по всем членам поровну с записью в value_new:

-2

Члены с id равным Nan удалены из результата, чтобы их включить, достаточно установить параметр dropna в False:

-3

Сумма Nan-ов дает числовой результат

Результаты выше свидетельствуют, о том, что запись с id=1 имеет value = Nan, однако сумма по полю дает 0 и в итоге value_new=0. Еще более явно:

-4

Операция для группы Nan-ов дает результат

Из результатов группировки выше видно, что для записей с id=Nan в value_new записывается числовой результат.

В целом перечисленные выше особенности бросаются в глаза при работе с маленьким датафреймом, но когда датасет большой, лучше быть готовым к таким сюрпризам.

-5