🐼Pandas — это библиотека для анализа и обработки данных в Python. Она предоставляет мощные структуры данных (такие как DataFrame и Series), которые упрощают работу с табличными данными. В этом руководстве мы рассмотрим основные возможности Pandas и продемонстрируем, как использовать эту библиотеку для манипуляции данными.
Установка Pandas
Чтобы установить Pandas, выполните следующую команду в терминале или командной строке:
pip install pandas
Основы использования Pandas
Импорт библиотеки
Первый шаг к использованию Pandas — импортировать необходимый модуль.
import pandas as pd
Создание DataFrame
DataFrame — это основная структура данных в Pandas, которая представляет собой двумерный таблиц-образный массив.
import pandas as pd
# Создание простого DataFrame
data = {
'Имя': ['Алекс', 'Мария', 'Иван'],
'Возраст': [28, 22, 35],
'Город': ['Москва', 'Санкт-Петербург', 'Новосибирск']
}
df = pd.DataFrame(data)
print(df)
Загрузка данных из CSV
Одним из распространенных способов использования Pandas является загрузка данных из файлов в формате CSV.
import pandas as pd
# Загрузка данных из CSV файла
df = pd.read_csv('path/to/your/file.csv')
# Просмотр первых пяти строк
print(df.head())
Здесь вам нужно заменить `'path/to/your/file.csv'` на реальный путь к вашему файлу.
Основные операции с DataFrame
- Фильтрация данных
Вы можете фильтровать данные на основе условий.
# Фильтрация по возрасту
young_people = df[df['Возраст'] < 30]
print(young_people)
- Добавление новых столбцов
Вы можете добавлять новые столбцы в DataFrame.
# Добавление нового столбца с категориями
df['Категория'] = ['Взрослый' if age >= 18 else 'Несовершеннолетний' for age in df['Возраст']]
print(df)
- Группировка данных
Pandas позволяет группировать данные и выполнять агрегирующие функции.
# Группировка по городу и подсчет среднего возраста
average_age = df.groupby('Город')['Возраст'].mean()
print(average_age)
Сохранение данных в CSV
После обработки данных вы можете сохранить их обратно в файл CSV.
# Сохранение DataFrame в CSV файл
df.to_csv('output_file.csv', index=False)
Это создаст файл `output_file.csv` в текущем рабочем каталоге.
Заключение
Pandas — это мощный инструмент для обработки и анализа данных в Python. Он предоставляет множество возможностей для работы с табличными данными, включая фильтрацию, групповую агрегацию и экспорт в различные форматы. Используя Pandas, вы сможете эффективно обрабатывать и анализировать большие объемы данных.
Если у вас есть вопросы или интересные темы для обсуждения, не стесняйтесь делиться ими!