Рассмотрим, как извлекать списочные значения из строк и проводить с ними некоторые операции средствами Pandas. Для примера воспользуемся таблицей следующего вида (инфа о вымышленных категориях магазинов в торговых центрах):
Разбиение строк на список категорий
Осуществляется с помощью векторизованного метода split, который принимает на вход разделитель:
Формирование колонок с индикаторами присутствия категории
Для этого воспользуйтесь векторизованным методом get_dummies:
Создание обобщенной категории
Здесь не потребуется ничего нового. Сформируем новую категорию 'prefer_cat', включающую торговые центры, где есть одновременно и магазин 'бытовой химии' и 'кино':
Такую же манипуляцию можно провести с использованием split. Нужные категории детектируются так:
или вовсе без векторизованных операций со строками: