Найти тему
dmescheryakov.site

Визуальный анализ данных, построение графиков и диаграмм в KNIME

Здравствуйте, уважаемые читатели!

В этой статье мы продолжим анализировать открытые данные Сбербанк.

Начало читайте в предыдущей статье Разведочный анализ, знакомство с данными в KNIME

Замечу, что я отфильтровал датасет таким образом, что там остались данные только по Амурской области. Если Вам интересны графики для Вашего региона - пишите об этом в комментариях.

Наша цель визуализировать некоторые показатели из датасета средствами KNIME и познакомиться с новыми узлами.

Сформулируем следующие задачи визуализации:

  1. Показать динамику средних расходов по карте в течении года так, чтобы на одном графике отображалась информация за весь период измерения с 2014 по 2018 года;
  2. Оценить по графику есть ли зависимость между средней суммой на счёте и средней заработной платой;
  3. Показать в разбивке по годам как соотносятся общие суммы заявок по ипотечным и потребительским кредитам за год с января 2013 по январь 2019;

На Рис. 1 представлен процесс визуализации, результатом которого будут 3 изображения в формате SVG c графиками.

Рис. 1 Процесс построения графиков и диаграмм
Рис. 1 Процесс построения графиков и диаграмм

Для анализа мы используем ряд новых узлов и повторим старые узлы такие, как Pivoting, Row Filter.

Задача 1

Рис. 2 Линейные графики
Рис. 2 Линейные графики

По линейным графикам мы видим, что каждый год кроме 2016-го население Амурской области после бурных новогодних праздников чуть экономнее расходует деньги. В феврале, несмотря на 23 февраля, расходы самые низкие за год. Мужчины довольствуются новыми носками и пеной для бритья  :-). В марте, я так понимаю, в связи с международным женским днём расходы возрастают, а в апреле идут на спад. Начиная с мая и на протяжении лета расходы неумолимо растут. Это пора отпусков у большинства людей. В сентябре траты снова  немного снижаются, а в декабре сильно возрастают. В предвкушении нового года люди покупают друг другу подарки и продукты на праздничный стол. Наверно, как и я, они думают, что новый год принесет им благополучие, финансовую стабильность. Но стабильно только одно: цены на продукты и ЖКХ возрастут и жить станет еще сложнее :-(.

Для построения линейного графика использовался узел Line Plot.

Задача 2

Рис. 3 Точечный график
Рис. 3 Точечный график

По точечному графику видно, что между размером средней зарплаты и средней суммой денег на счёте есть зависимость. Что, в принципе, логично. С ростом зарплаты сумма денег на счете тоже растёт. В одной из следующих статей мы продолжим исследовать эту взаимосвязь, применяя методы статистки.

Точечный график построен с помощью узла Scatter Plot.

Задача 3

Рис. 4 Столбчатая диаграмма
Рис. 4 Столбчатая диаграмма

На столбчатой диаграмме видно, что суммарно величина заявок на потребительские кредиты превышает ипотечные. И год от года объём кредитов растёт. Исключение 2015 год, который характеризуется резким спадом кредитной активности амурчан. И действительно в Интернете можно найти сведения, что в 2015 году объёмы кредитов упали почти в 1,5 раза.

Перед построением графика проводились манипуляции с датасетом. У нас изначально есть следующие показатели характеризующие потребительские и ипотечные кредиты: количество заявок на ипотечные кредиты, количество заявок на потребительские кредиты, средняя сумма заявки на ипотечный кредит, средняя сумма заявки на потребительский кредит. Величина каждого показателя указана за месяц. Чтобы получить общую сумму заявок по кредитам нужно перемножить количество заявок на среднюю сумму заявки. Конечно это будет не точный реальный объём кредитов, а оценка. Но нас она вполне устроит. Для выполнения операции умножения использовался узел Math Formula.

Столбчатая диаграмма построена с помощью узла Bar Plot

Подробности построения графиков читайте в моём персональном блоге.

Подписывайтесь на мой канал, чтобы узнавать о выходе новых статей.