Найти тему
Властелин машин

5 способов исследования больших данных с Pandas

Оглавление

Рассмотрим инструменты библиотеки Pandas для изучения характеристик данных большого размера.

В демонстрационных целях будем работать с игрушечной таблицей о поломках машин, которая сгенерирована ранее для анализа выживаемости (подробнее читай здесь):

Уникальные значения и их количество

Перечисление

Вывести уникальные значения можно с помощью методов unique, drop_duplicates:

-2

Количество

Чтобы получить количество первым способом можно воспользоваться функцией len, а вторым - обращением к свойству shape:

-3

Количество элементов всего и по группам уникальных значений

Для вывода общего количества элементов можно воспользоваться упоминавшимся выше свойством shape. Также удобно выводить количество по группам уникальных значений с помощью метода value_counts:

-4

Определение пустых/непустых элементов

Для определения пустых/непустых элементов можно воспользоваться методами isnull, notnull:

-5

Как видно на примере выше, можно получить индексы этих элементов, обратившись к свойству index. Имея индексы, не трудно вывести пустые элементы альтернативным способом:

-6

Членство в перечне

Задается с помощью метода isin:

-7

Для получения фрагмента таблицы со значениями, не входящими в перечень:

-8

Распределение длин значений

Данная задача решается с помощью векторизованных строковых операций и метода len:

-9

В силу специфики данных в таблице все типы машин имеют вид 'typeX' и являются строками длины 5.

-10