Доброго времени суток! В этой статье будем проводить анализ данных, с помощью библиотеки pandas для python, а также библиотеки numpy и matplotlib.
Итак, для анализа я взял данные по сервису Steam. Файл с данными в формате csv я скачал с сайта https://www.kaggle.com.
В этом файле собраны даты выхода игр, их оценка Metacritic, рекомендации пользователей, а также данные по жанрам и ценам.
Ещё есть отдельный столбец, в котором указано бесплатная игра или нет, с него мы и начнём.
Для начала импортируем нужные библиотеки
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from matplotlib import cm
from mpl_toolkits.mplot3d import Axes3D
from matplotlib.pyplot import figure
Последняя строка импортирует объект figure, с помощью которого я могу изменять размер графиков.
figure(figsize=(14, 10), dpi=80)
Далее идут 2 функции, первая позволяет получить цвета для диаграмм, а вторая сортирует словарь, который получается с помощью функции dict()
Далее создаем DataFrame, функция read_csv позволяет прочитать файл csv.
df = pd.read_csv('./games-features-edit.csv', escapechar='`', low_memory=False)
escapechar позволяет убрать лишние символы, а low_memoty=False нужен для чтения файла целиком.
Файл с данными должен находится в одном каталоге с программой
Создание диаграмм.
Для начала я отредактировал данные в столбце IsFree, он показывает бесплатная игра или нет, тип данных там bool, с помощью цикла я заменил True на Free, а False на NonFree.
Далее пишем такой код
games_count - коллекция значений из столбца IsFree, далее в 2 переменные отдельно получаем отсортированные ключи и значения.
TOP_GAMES - кол-во игр, ось y
Получилась такая диаграмма
Из неё мы уже видим, что почти 12 тысяч игр в Steam платные, а около 1000 бесплатные.
Диаграмма цен и кол-ва игр
В этой диаграмме будет отражен диапазон округлённых цен на игры, от 5$ до 50$.
Теперь с помощью цикла в колонке с ценами я округлил их и заменил тип данных на int. Позже убрал все записи, которые равны 0, то есть бесплатные игры и оставил записи от 5 до 50 долларов.
Построение диаграммы почти такое же.
с помощью rotation=60 в plt.xticks я повернул значения на 60 градусов, чтобы они не мешали друг другу и можно было их разобрать.
Получилась такая диаграмма
Из неё видно, что больше 2000 игр в Steam стоят около 10$, далее идёт цена 15$, таких игр около 850, и на третьем месте цена 20$, игр по такой цене примерно 800.
Такой получился анализ данных, в следующей статье попробуем проанализировать количество игр по жанрам.
Спасибо за прочтение, не болейте!
#анализданных #python #datascience #программирование