Найти тему
Властелин машин

Снимаем цифровую маску с Python

Как быстро убедиться в том, что в искомой колонке датафрейма находится числовое значение? В этой статье рассмотрим несколько приемов разделения мусора от цифровой информации.

Сначала сформируем синтетический набор:

Объекты ser1 и ser2 отличаются тем, что в первом случае такое разделение осуществить проще, так как необходимые нам значения являются положительными и целочисленными. Для демонстрации этого достаточно использовать строчный метод isdigit, который на примере ser1 дает положительный результат, а для ser2 - нет:

-2

Разберем приемы достижения нашей цели на примере ser2. Так, можно действовать по аналогии, с отличием в том, чтобы применить isdigit к очищенному значению (после удаления знаков "-" и "."):

-3

Однако это вернет и строки вида "232-121":

-4

В этой ситуации надежнее проверять на соответствие регулярному выражению:

-5

-6