Добавить в корзинуПозвонить
Найти в Дзене
LabelMe

Краткий гайд по визуализации данных в Python с помощью Matplotlib

Визуализация данных позволяет лучше понять структуру некоторых переменных и сделать вывод о их корреляции. Мы подготовили краткое пособие по визуализации в Matplotlib с фрагментами кода, который можно использовать как шаблон.
Оглавление

Недавно мы писали статью, в которой сравнивали визуализацию в Matplotlib и Ggplot2. Для многих эта тема оказалась интересной и при этом достаточно сложной. Мы хотим убедить вас в обратном на примере работы с Matplotlib. Мы подготовили фрагменты кода, который можно использовать как шаблон визуализируя свои собственные данные.

В качества образца данных для визуализации мы используем следующие таблицы:

процентная доля it-продуктов на рынке
процентная доля it-продуктов на рынке
Общее количество зачисленных студентов с 2014 по 2018 гг.
Общее количество зачисленных студентов с 2014 по 2018 гг.
-3

1. Трехмерная круговая диаграмма

-4

Чтобы получить такую диаграмму, вам достаточно только поменять количество и название в строке "labels", а в разделе "size" подставить свои величины. Главное сохранить последовательности: она должна соответствовать во всех строках кода.

2. Столбчатая диаграмма

-5

Мы используем те же данные, только слегка изменяем код:

-6

Чтобы сделать столбчатую диаграмму в горизонтальном виде, воспользуйтесь другой версией кода:

3. Линейный график в Python

Теперь для визуализации используем данные о зачислении студентов, принятых в колледж за 5 лет. Таблицу со всеми значениями вы видели в начале статьи. Для этого мы воспользуемся функцией plot для построения линейного графика следующий образом:

На выходе получаем такой результат:

-7

Если вам не нравится внешний вид линии или вам нужно другое форматирование, вы можете поиграть со значениями. Сейчас приведем несколько примеров того, как могут выглядеть линии и какие для этого нужны значения. Для этого нужно будет внести изменения в эту строку:

linestyle = 'solid', color = 'blue'

4. Графики построенные на данных из CSV с помощью Matplotlib и Pandas

Перейдем к теме посерьёзнее: построим расширенные графики, где мы будем использовать данные mydata. Сперва загружаем их в фрейм следующей командой:

Эти данные содержат четыре переменных: y, x1, x2, x3. Чтобы облегчить путь к этим функциям, можно применить этот код:

Чтобы представить распределение вероятностей переменной y, мы можем использовать команду:

Получаем вот такую визуализацию:

-9

Здесь мы также можем поиграть с настройками в зависимости от цели и ТЗ:

-10

Или можно сделать в виде коробчатой диаграммы:

-11
sns.boxplot (y, orient = 'v', color = 'skyblue')

Чтобы нужно сравнить несколько значений, то можно использовать следующий код:

-12

Если нужно визуализировать корреляцию между несколькими переменными - используйте Scatter:

-13
sns.scatterplot (x1, y)

Заключение

Визуализация в анализе данных и машинном обучении очень важна. Она позволяет лучше понять структуру некоторых переменных, сделать вывод о некоторой корреляции между несколькими переменными, и, в конечном итоге, принимать правильные решения в ходе работы.

Как вы могли убедиться, для визуализации с помощью Matplotlib достаточно знать или хотя бы иметь заметки с разными шаблонами кода. Даже представленных в статье шаблонов с головой хватит для решения самых распространенных задач.

Если до этого моменты вы пользовались другими способами, то у вас есть отличная возможность попробовать что-то новенькое. Особенно если это упростить ваши повседневные задачи.