Найти в Дзене
Практика Python

Рисуем графики в Python. Часть 1. Seaborn - установка и первая визуализация

Seaborn библиотека высокого уровня. Она предназначена для визуализации данных и основана на библиотеке matplotlib. Начнём работу с подготовки рабочего пространства. Итак официальный релиз seaborn загружаем PyPl. Пишем в командной строке: pip install seaborn Пакет можно загрузить и прям из среды разработки. Seaborn зависим от других библиотек. Разработчик указывает на три библиотеки с обязательной зависимостью: И на три с необязательной: Если с последними тремя 99,9% пользователей не втолкнуться никогда, то без первых трёх нормальная работа не получится. Установить их нужно обязательно. Загрузим необходимые нам модули: Если на этом этапе возникает ошибка, обычно она связана с тем, что у вас имеется несколько инсталляций Python, и вы грузите библиотеки для одной из них, а интерпретатор работает с другой. Нужно указать ему какую следует использовать. Итак, у нас всё готово для начала работы. Чтобы не выдумывать себе цифры, я скачал с сайта Росстата файл, описывающий ВВП России за после

Seaborn библиотека высокого уровня. Она предназначена для визуализации данных и основана на библиотеке matplotlib. Начнём работу с подготовки рабочего пространства.

Итак официальный релиз seaborn загружаем PyPl. Пишем в командной строке:

pip install seaborn

Пакет можно загрузить и прям из среды разработки. Seaborn зависим от других библиотек. Разработчик указывает на три библиотеки с обязательной зависимостью:

  • numpy
  • pandas
  • matplotlib

И на три с необязательной:

  • statsmodels
  • scipy
  • fastcluster

Если с последними тремя 99,9% пользователей не втолкнуться никогда, то без первых трёх нормальная работа не получится. Установить их нужно обязательно. Загрузим необходимые нам модули:

Импорт модулей
Импорт модулей

Если на этом этапе возникает ошибка, обычно она связана с тем, что у вас имеется несколько инсталляций Python, и вы грузите библиотеки для одной из них, а интерпретатор работает с другой. Нужно указать ему какую следует использовать.

Итак, у нас всё готово для начала работы. Чтобы не выдумывать себе цифры, я скачал с сайта Росстата файл, описывающий ВВП России за последние годы и выложил его в Яндекс.диск. Ссылка на скачивание. Возьмём лист 1.2 и загрузим данные за последние 10 лет.

Данные из файла.
Данные из файла.

Создаём словарь со списками значений годов и показателей ВВП. Обращаемся к pandas и его помощью создаём таблицу с данными (датафрейм в терминологии пандаса), которую мы далее и будем визуализировать. Код:

#создаем словарь списки с данными по годам и значениям
lst ={"year": [2012,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022], "val" : [3480,3741,3763,3526,3590,3807,4231,4413,4396,4966,5327]}
#создаем датафрейм
data = pd.DataFrame (lst)

Вот что получаем:

Вывод датафрейма
Вывод датафрейма

Сейчас не стоит обращать внимание на сложность ввода. Совсем скоро мы будем забирать данные напрямую с огромных файлов, содержащих в себе десятки колонок, убирать из них лишнее и добавлять того, что нам не хватает из других файлов. А затем мы будем "вытаскивать" нужные данные прямо с сайтов. Сейчас всё готово для построения первой визуализации. Сначала используем для этого побарную интерпретацию barplot().

Синтаксис:

barplot (x,y,data)

x - указываем из какой колонки мы будем брать значения для оси x

y - тоже для оси y

data - название датафрейма

Код:

формируем барплот
формируем барплот

и на выводе получаем:

Первая визуализация
Первая визуализация

А теперь попробуйте поменять местами значения х и y. Я имею ввиду, что теперь x = "val", y = "year" Что у вас получилось?

plt.show() нужно ставить только в среде, где она визуализация не включена по умолчанию. Например в Анаконде, если умолчания не изменены, график мы увидим и без plt.show().

Итак первый шаг сделан. Невзрачно и некрасиво, но это только начало. Далее мы "накрасим" и "причешем" нашу визуализацию.

Продолжение следует........

Часть 2