Анализ данных — это прежде всего понимание данных. Каков их объем, размерность, характеристики.
В общем все то, что описывает данные и помогает их понять называется описательными статистиками.
Pandas предоставляет несколько методов помогающих понять и сделать выводы о данных содержащихся в датафрейме.
Создание датафрейма
Прежде всего создадим датафрейм.
Датафрейм одна из основных конструкций хранений и представления данных в Pandas. Если проще, датафрейм простая таблица, имеющая столбцы (column) и строки (row).
Подробнее о датафрейме Представление данных в Pandas
Здесь же я буду использовать оба слова датафрейм = таблица.
Вы можете загрузить датафрейм из Excel базы данных SQL или из других источников, а можете создать простой датафрейм передав в него словарь Python.
Итак, создадим датафрейм.
Создадим словарь, где ключи словаря будут названиями столбцов (column_1), а значения - данными таблицы. Если нам нужна однострочная таблица, то значения словаря будут одинарными, если в таблице должно быть несколько строк, то количество этих строк определяется количеством значений списка ( [1, 2] ), который мы передаем как значение словаря. В нашем случае мы передаем в списке только два значения, соответственно и получим в таблице только две строки
dict_data = {'column_1': ['a_side', 'b_side'], 'column_2': [1, 2], 'column_3': [3.0, 4.5]}
Создаем датафрейм с именем df. Передаем словарь с данными в качестве аргумента data в метод pd.DataFrame
df = pd.DataFrame(data=dict_data)
Мы создали вот такую таблицу с данными различных типов.
info()
Начнем со стандартного и одного из самых часто употребляемых методов получения информации о датафрейме - info().
Для того чтобы применить метод к датафрейму, нужно просто написать его через точку df.info(). Сам датафрейм при этом остается неизменным. каждый информационный метод создает свой объект, который вы может присвоить какой-либо переменной.
Например так
infomaniac = df.info()
print(infomaniac)
Или стандартный путь
df.info()
Этот метод дает общую информацию о размерности датафрейма и типах данных, которые в нем содержатся.
RangeIndex показывает, что в нашем датафрейме содержится 2 строки от 0 до 1.
Датафрейм содержит всего 3 колонки, в которых содержатся следующие типы данных:
- column_1 - тип данных ‘object’;
- column_2 - тип данных ‘int64’;
- column_3 - тип данных ‘float64’;
О типах данных здесь Представление данных в Pandas .
В каждом столбце, по два ненулевых значения (non-null), но скорее это не пустые значения, так как в определенных случаях значения 0 тоже показывается как non-null значение. Данный параметр очень удобен, когда нужно оценить количество данных по разным столбцам в датафрейме.
Всего у нас по одному столбцу с каждым типом данных.
Таблица занимает в памяти объем более 180 килобайт.
describe()
Данный метод показывает описательную статистику датафрейма. Метод демонстрирует центральную тенденцию, дисперсию и форму распределения набора данных. Важно, из расчета данных значений исключаются ячейки с отсутствующими данными - NaN.
df.describe()
count - количество значений в каждом столбце (2);
mean - средняя величина значений в каждом столбце;
std - величина стандартного отклонения данных в столбце;
min - минимальное значение данных в столбце;
25% - 25й перцентиль;
50% - 50й перцентиль, он же медиана;
75% - 75й перцентиль;
max - максимальное значение данных в столбце;
Данный тип описательной статистики характерен для числовых данных. Для объектных и временных данных статистика будет иная.
columns
df.columns
Возвращает индексный список столбцов датафрейма. С данным списком можно работать как с обычным списком Python (df.columns[0]). Аналогичный результат дает и метод df.keys().
index
df.index
Этот метод также возвращает индексный список, но не столбцов, а строк датафрейма.
shape
df.shape
Показывает размер датафрейма в виде кортежа Python. На первом месте количество строк, на втором количество столбцов.
memory_usage()
df.memory_usage()
Показывает использование памяти каждым столбцом. Сколько байт в памяти занимает каждый столбец.
size
df.size
Показывает количество элементов в датафрейме. Если проще, то количество строк, умноженное на количество столбцов, без учета индексов.
Теперь вы знаете как можно получить различную информацию о датафрейме. Методов получения информации о датафрейме много больше, можно получать информацию только о конкретном столбце. Если вас интересует более глубокое погружение в Pandas нужно читать официальную документацию.
Чтобы узнать еще больше об обработке данных подписывайся на канал.
Если вы что то не поняли, читайте начальные статьи:
Не хватает возможностей Excel? Возьмите Pandas!
Установка Anaconda Navigator и Jupyter lab
Представление данных в Pandas
Загрузка данных из Excel