Первое на что стоит обратить внимание это две структуры данных Series и Dataframe.
1. Series
Series - Это одномерный массив который я чаще всего сравниваю со столбцом в Excel. Если сравнивать с списком Python то есть два больших отличия :
- то что операции с Series выполняются поэлементно
- в качестве индекса элемента можно использовать любое значение (и даже строку!)
import pandas as pd
series = pd.Series([1, 2, 3])
series = series * 2
print(series)
Вывод:
0 2
1 4
2 6
dtype: int64
Как мы видим нам выводятся два столбца первый это индекс а второй значения (которые перемножили на 2).
Теперь поиграемся с индексом:
names = ['Alex', 'Misha', 'Masha']
moneys = [200, 300, 500]
series = pd.Series(data=moneys, index=names)
print(series)
Вывод:
Alex 200
Misha 300
Masha 500
dtype: int64
Теперь у нас в качестве индексов имена ['Alex', 'Misha', 'Masha'] а в качестве значений числа [200, 300, 500]. Исходя из этого мы можем обращаться по индексу (в нашем случае по имени)
print(series['Misha'])
Вывод:
300
2. Dataframe
Dataframe - это таблица, считайте что это полноценный Excel только круче!
Pandas позволяет импортировать и экспортировать данные формата csv, excel, sql, json, xml.
Dataframe позволяет делать с этими данными все что захотите: фильтровать, группировать, объединять, разделять, делать сводные таблицы, производить расчеты и много другое.
Пробуем импортировать данные.
1 - Excel
Стоит обратить внимание на то что возможно ошибка при попытке загрузке файла Excel так как необходимо установить библиотеку openpyxl
import pandas as pd
df = pd.read_excel('Книга1.xlsx')
print(df)
Вывод:
Как примеры может зайти на сайт www.kaggle.com скачать любой набор данных и попробовать с ним поработать.