614 подписчиков

5 способов исследования больших данных с Pandas

8 марта 20218 мар 2021

1 мин

Рассмотрим инструменты библиотеки Pandas для изучения характеристик данных большого размера.

В демонстрационных целях будем работать с игрушечной таблицей о поломках машин, которая сгенерирована ранее для анализа выживаемости (подробнее читай здесь):

Уникальные значения и их количество

Перечисление

Рассмотрим инструменты библиотеки Pandas для изучения характеристик данных большого размера.

Уникальные значения и их количество

Перечисление

Оглавление

Уникальные значения и их количество
Перечисление
Количество

Рассмотрим инструменты библиотеки Pandas для изучения характеристик данных большого размера.

Уникальные значения и их количество

Перечисление

Вывести уникальные значения можно с помощью методов unique, drop_duplicates:

Количество

Чтобы получить количество первым способом можно воспользоваться функцией len, а вторым - обращением к свойству shape:

Количество элементов всего и по группам уникальных значений

Для вывода общего количества элементов можно воспользоваться упоминавшимся выше свойством shape. Также удобно выводить количество по группам уникальных значений с помощью метода value_counts:

Определение пустых/непустых элементов

Для определения пустых/непустых элементов можно воспользоваться методами isnull, notnull:

Как видно на примере выше, можно получить индексы этих элементов, обратившись к свойству index. Имея индексы, не трудно вывести пустые элементы альтернативным способом:

Членство в перечне

Задается с помощью метода isin:

Для получения фрагмента таблицы со значениями, не входящими в перечень:

Распределение длин значений

Данная задача решается с помощью векторизованных строковых операций и метода len:

В силу специфики данных в таблице все типы машин имеют вид 'typeX' и являются строками длины 5.