Рассмотрим инструменты библиотеки Pandas для изучения характеристик данных большого размера.
В демонстрационных целях будем работать с игрушечной таблицей о поломках машин, которая сгенерирована ранее для анализа выживаемости (подробнее читай здесь):
Уникальные значения и их количество
Перечисление
Вывести уникальные значения можно с помощью методов unique, drop_duplicates:
Количество
Чтобы получить количество первым способом можно воспользоваться функцией len, а вторым - обращением к свойству shape:
Количество элементов всего и по группам уникальных значений
Для вывода общего количества элементов можно воспользоваться упоминавшимся выше свойством shape. Также удобно выводить количество по группам уникальных значений с помощью метода value_counts:
Определение пустых/непустых элементов
Для определения пустых/непустых элементов можно воспользоваться методами isnull, notnull:
Как видно на примере выше, можно получить индексы этих элементов, обратившись к свойству index. Имея индексы, не трудно вывести пустые элементы альтернативным способом:
Членство в перечне
Задается с помощью метода isin:
Для получения фрагмента таблицы со значениями, не входящими в перечень:
Распределение длин значений
Данная задача решается с помощью векторизованных строковых операций и метода len:
В силу специфики данных в таблице все типы машин имеют вид 'typeX' и являются строками длины 5.