Найти в Дзене
Pythonic

Введение в библиотеку Pandas для обработки данных на Python

Оглавление

🐼Pandas — это библиотека для анализа и обработки данных в Python. Она предоставляет мощные структуры данных (такие как DataFrame и Series), которые упрощают работу с табличными данными. В этом руководстве мы рассмотрим основные возможности Pandas и продемонстрируем, как использовать эту библиотеку для манипуляции данными.

Установка Pandas

Чтобы установить Pandas, выполните следующую команду в терминале или командной строке:

pip install pandas

Основы использования Pandas

Импорт библиотеки

Первый шаг к использованию Pandas — импортировать необходимый модуль.

import pandas as pd

Создание DataFrame

DataFrame — это основная структура данных в Pandas, которая представляет собой двумерный таблиц-образный массив.

import pandas as pd
# Создание простого DataFrame
data = {
'Имя': ['Алекс', 'Мария', 'Иван'],
'Возраст': [28, 22, 35],
'Город': ['Москва', 'Санкт-Петербург', 'Новосибирск']
}
df = pd.DataFrame(data)
print(df)
Пример вывода DataFrame, показывающий данные о людях.
Пример вывода DataFrame, показывающий данные о людях.

Загрузка данных из CSV

Одним из распространенных способов использования Pandas является загрузка данных из файлов в формате CSV.

import pandas as pd
# Загрузка данных из CSV файла
df = pd.read_csv('path/to/your/file.csv')
# Просмотр первых пяти строк
print(df.head())

Здесь вам нужно заменить `'path/to/your/file.csv'` на реальный путь к вашему файлу.

Основные операции с DataFrame

  • Фильтрация данных

Вы можете фильтровать данные на основе условий.

# Фильтрация по возрасту
young_people = df[df['Возраст'] < 30]
print(young_people)
DataFrame, содержащий только людей младше 30 лет.
DataFrame, содержащий только людей младше 30 лет.

  • Добавление новых столбцов

Вы можете добавлять новые столбцы в DataFrame.

# Добавление нового столбца с категориями
df['Категория'] = ['Взрослый' if age >= 18 else 'Несовершеннолетний' for age in df['Возраст']]
print(df)
Обновленный DataFrame с новым столбцом "Категория".
Обновленный DataFrame с новым столбцом "Категория".

  • Группировка данных

Pandas позволяет группировать данные и выполнять агрегирующие функции.

# Группировка по городу и подсчет среднего возраста
average_age = df.groupby('Город')['Возраст'].mean()
print(average_age)
Серия, показывающая средний возраст людей по городам.
Серия, показывающая средний возраст людей по городам.

Сохранение данных в CSV

После обработки данных вы можете сохранить их обратно в файл CSV.

# Сохранение DataFrame в CSV файл
df.to_csv('output_file.csv', index=False)

Это создаст файл `output_file.csv` в текущем рабочем каталоге.

Заключение

Pandas — это мощный инструмент для обработки и анализа данных в Python. Он предоставляет множество возможностей для работы с табличными данными, включая фильтрацию, групповую агрегацию и экспорт в различные форматы. Используя Pandas, вы сможете эффективно обрабатывать и анализировать большие объемы данных.

Если у вас есть вопросы или интересные темы для обсуждения, не стесняйтесь делиться ими!