Найти тему
Властелин машин

Манипуляции со списковыми значениями в Pandas

Оглавление

Рассмотрим, как извлекать списочные значения из строк и проводить с ними некоторые операции средствами Pandas. Для примера воспользуемся таблицей следующего вида (инфа о вымышленных категориях магазинов в торговых центрах):

Разбиение строк на список категорий

Осуществляется с помощью векторизованного метода split, который принимает на вход разделитель:

-2

Формирование колонок с индикаторами присутствия категории

Для этого воспользуйтесь векторизованным методом get_dummies:

-3

Создание обобщенной категории

Здесь не потребуется ничего нового. Сформируем новую категорию 'prefer_cat', включающую торговые центры, где есть одновременно и магазин 'бытовой химии' и 'кино':

-4

Такую же манипуляцию можно провести с использованием split. Нужные категории детектируются так:

-5

или вовсе без векторизованных операций со строками:

-6
-7