Недавно мы писали статью, в которой сравнивали визуализацию в Matplotlib и Ggplot2. Для многих эта тема оказалась интересной и при этом достаточно сложной. Мы хотим убедить вас в обратном на примере работы с Matplotlib. Мы подготовили фрагменты кода, который можно использовать как шаблон визуализируя свои собственные данные.
В качества образца данных для визуализации мы используем следующие таблицы:
1. Трехмерная круговая диаграмма
Чтобы получить такую диаграмму, вам достаточно только поменять количество и название в строке "labels", а в разделе "size" подставить свои величины. Главное сохранить последовательности: она должна соответствовать во всех строках кода.
2. Столбчатая диаграмма
Мы используем те же данные, только слегка изменяем код:
Чтобы сделать столбчатую диаграмму в горизонтальном виде, воспользуйтесь другой версией кода:
3. Линейный график в Python
Теперь для визуализации используем данные о зачислении студентов, принятых в колледж за 5 лет. Таблицу со всеми значениями вы видели в начале статьи. Для этого мы воспользуемся функцией plot для построения линейного графика следующий образом:
На выходе получаем такой результат:
Если вам не нравится внешний вид линии или вам нужно другое форматирование, вы можете поиграть со значениями. Сейчас приведем несколько примеров того, как могут выглядеть линии и какие для этого нужны значения. Для этого нужно будет внести изменения в эту строку:
linestyle = 'solid', color = 'blue'
4. Графики построенные на данных из CSV с помощью Matplotlib и Pandas
Перейдем к теме посерьёзнее: построим расширенные графики, где мы будем использовать данные mydata. Сперва загружаем их в фрейм следующей командой:
Эти данные содержат четыре переменных: y, x1, x2, x3. Чтобы облегчить путь к этим функциям, можно применить этот код:
Чтобы представить распределение вероятностей переменной y, мы можем использовать команду:
Получаем вот такую визуализацию:
Здесь мы также можем поиграть с настройками в зависимости от цели и ТЗ:
Или можно сделать в виде коробчатой диаграммы:
sns.boxplot (y, orient = 'v', color = 'skyblue')
Чтобы нужно сравнить несколько значений, то можно использовать следующий код:
Если нужно визуализировать корреляцию между несколькими переменными - используйте Scatter:
sns.scatterplot (x1, y)
Заключение
Визуализация в анализе данных и машинном обучении очень важна. Она позволяет лучше понять структуру некоторых переменных, сделать вывод о некоторой корреляции между несколькими переменными, и, в конечном итоге, принимать правильные решения в ходе работы.
Как вы могли убедиться, для визуализации с помощью Matplotlib достаточно знать или хотя бы иметь заметки с разными шаблонами кода. Даже представленных в статье шаблонов с головой хватит для решения самых распространенных задач.
Если до этого моменты вы пользовались другими способами, то у вас есть отличная возможность попробовать что-то новенькое. Особенно если это упростить ваши повседневные задачи.