Найти в Дзене
python-book

Python, анализ данных Steam

Оглавление

Доброго времени суток! В этой статье будем проводить анализ данных, с помощью библиотеки pandas для python, а также библиотеки numpy и matplotlib.

Итак, для анализа я взял данные по сервису Steam. Файл с данными в формате csv я скачал с сайта https://www.kaggle.com.

В этом файле собраны даты выхода игр, их оценка Metacritic, рекомендации пользователей, а также данные по жанрам и ценам.

Ещё есть отдельный столбец, в котором указано бесплатная игра или нет, с него мы и начнём.

Для начала импортируем нужные библиотеки

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

from matplotlib import cm

from mpl_toolkits.mplot3d import Axes3D

from matplotlib.pyplot import figure

Последняя строка импортирует объект figure, с помощью которого я могу изменять размер графиков.

figure(figsize=(14, 10), dpi=80)

Далее идут 2 функции, первая позволяет получить цвета для диаграмм, а вторая сортирует словарь, который получается с помощью функции dict()

main.py
main.py

Далее создаем DataFrame, функция read_csv позволяет прочитать файл csv.

df = pd.read_csv('./games-features-edit.csv', escapechar='`', low_memory=False)

escapechar позволяет убрать лишние символы, а low_memoty=False нужен для чтения файла целиком.

Файл с данными должен находится в одном каталоге с программой

Создание диаграмм.

Для начала я отредактировал данные в столбце IsFree, он показывает бесплатная игра или нет, тип данных там bool, с помощью цикла я заменил True на Free, а False на NonFree.

main.py
main.py

Далее пишем такой код

main.py
main.py

games_count - коллекция значений из столбца IsFree, далее в 2 переменные отдельно получаем отсортированные ключи и значения.

TOP_GAMES - кол-во игр, ось y

Получилась такая диаграмма

Получившаяся диаграмма
Получившаяся диаграмма

Из неё мы уже видим, что почти 12 тысяч игр в Steam платные, а около 1000 бесплатные.

Диаграмма цен и кол-ва игр

В этой диаграмме будет отражен диапазон округлённых цен на игры, от 5$ до 50$.

main.py
main.py

Теперь с помощью цикла в колонке с ценами я округлил их и заменил тип данных на int. Позже убрал все записи, которые равны 0, то есть бесплатные игры и оставил записи от 5 до 50 долларов.

Построение диаграммы почти такое же.

main.py
main.py

с помощью rotation=60 в plt.xticks я повернул значения на 60 градусов, чтобы они не мешали друг другу и можно было их разобрать.

Получилась такая диаграмма

Получившаяся диаграмма
Получившаяся диаграмма

Из неё видно, что больше 2000 игр в Steam стоят около 10$, далее идёт цена 15$, таких игр около 850, и на третьем месте цена 20$, игр по такой цене примерно 800.

Такой получился анализ данных, в следующей статье попробуем проанализировать количество игр по жанрам.

Спасибо за прочтение, не болейте!

#анализданных #python #datascience #программирование