Найти в Дзене
Data analytic

Pandas - это просто! (2- Первые шаги)

Оглавление

Первое на что стоит обратить внимание это две структуры данных Series и Dataframe.

1. Series

Series - Это одномерный массив который я чаще всего сравниваю со столбцом в Excel. Если сравнивать с списком Python то есть два больших отличия :

  • то что операции с Series выполняются поэлементно
  • в качестве индекса элемента можно использовать любое значение (и даже строку!)
import pandas as pd

series = pd.Series([1, 2, 3])
series = series * 2

print(series)
Вывод:
0 2
1 4
2 6
dtype: int64

Как мы видим нам выводятся два столбца первый это индекс а второй значения (которые перемножили на 2).

Теперь поиграемся с индексом:

names = ['Alex', 'Misha', 'Masha']
moneys = [200, 300, 500]
series = pd.Series(data=moneys, index=names)

print(series)
Вывод:
Alex 200
Misha 300
Masha 500
dtype: int64

Теперь у нас в качестве индексов имена ['Alex', 'Misha', 'Masha'] а в качестве значений числа [200, 300, 500]. Исходя из этого мы можем обращаться по индексу (в нашем случае по имени)

print(series['Misha'])
Вывод:
300

2. Dataframe

Dataframe - это таблица, считайте что это полноценный Excel только круче!

Pandas позволяет импортировать и экспортировать данные формата csv, excel, sql, json, xml.

Dataframe позволяет делать с этими данными все что захотите: фильтровать, группировать, объединять, разделять, делать сводные таблицы, производить расчеты и много другое.

Пробуем импортировать данные.

1 - Excel

Стоит обратить внимание на то что возможно ошибка при попытке загрузке файла Excel так как необходимо установить библиотеку openpyxl

Книга1.xlsx
Книга1.xlsx
import pandas as pd

df = pd.read_excel('Книга1.xlsx')
print(df)
Вывод:
Вывод загруженного файла Excel
Вывод загруженного файла Excel

Как примеры может зайти на сайт www.kaggle.com скачать любой набор данных и попробовать с ним поработать.