Найти тему
dmescheryakov.site

Расчёт описательных статистик, бокс плот и гистограмма частот в KNIME

Здравствуйте, уважаемые читатели!

В этой статье мы рассмотрим описательные статистки, бокс плот и гистограмму частот на примере показателя В среднем руб. на текущем счете на человека, взятого из датасета ПАО Сбербанк. Научимся вычислять и строить их, используя KNIME. Это уже третья статья посвящённая данной аналитической платформе. Предыдущие Вы можете прочитать здесь Знакомство и здесь Визуализация.

Подготовительные работы

Последовательность действий представлена на Рис. 1

Рис. 1 Расчёт описательных статистик и построение графиков
Рис. 1 Расчёт описательных статистик и построение графиков

Начнём с того, что выберем из нашего датасета только необходимые сведения. Нам нужны значения показателя В среднем руб. на текущем счете на человека за 2018 год.

В недавно вышедшей версии KNIME 4.1 в разделе Labs появился новый экпериментальный узел Row Filter (Labs). Его мы и будем использовать для фильтрации.

Немного о KNIME Labs. Она даёт пользователям возможность попробовать новые плагины и функциональность, которая ещё находится в процессе разработки. На Рис. 2 представлено окно настройки узла Row Filter (Labs).

Рис. 2 Настройка узла Row Filter (Labs)
Рис. 2 Настройка узла Row Filter (Labs)

Могу сказать, что на данный момент этот узел удобно применять. Настройки интуитивно понятны. Финальная версия может конечно отличаться.

Также мы применим узел Column Filter c настройками Рис. 3, чтобы оставить только столбец со значением показателя

Рис. 3 Настройки узла Column Filter
Рис. 3 Настройки узла Column Filter

Теперь перейдём непосредственно к решению поставленных задач.

Задача 1 Описательные статистики

В математической статистике для того, чтобы охарактеризовать выборку используют описательные статистики. К ним относятся меры центральной тенденции и меры вариаций. Кратко об описательных статистиках на канале Вы можете посмотреть нарратив Описательные статистики.

Мера центральной тенденции — это способ охарактеризовать всю выборку одним числом — наиболее типичным значением, а мера вариации — диапазон в пределах которого значения выборки могут меняться. Популярны две пары описательных статистик: медиана и квартили, среднее и стандартное отклонение. Рассмотрим первую пару.

Медиана — это такое число, что ровно половина значений выборки меньше него, а другая половина больше. Из определения вытекает алгоритм нахождения медианы. Нужно упорядочить значения выборки. Если объём (количество значений выборке) нечётное число, то медиана равна центральному значению. А если объём чётное число, медиана находится как половина суммы значений слева и справа от центра.

Квартили - делят ряд значений выборки на 4 равные части, каждая часть включает 25%. Нетрудно догадаться, что второй квартиль совпадает со значением медианы. Расстояние между первым и третьим квартилем называется межквартильным расстоянием и туда попадают 50% значений выборки.

Другая пара - среднее и стандартное отклонение.

Среднее — это число равное сумме значений выборки, делённой на её объём.

Вариативность значений для среднего описывает стандартное отклонение. Логичным способом узнать насколько отличаются значения в выборке это найти разность между значением выборки и средним. Однако, сложив эти отклонения мы получим в сумме 0, поскольку есть величины отклонений как отрицательные, так и положительные. Чтобы это предотвратить, отклонения возводят в квадрат. Далее для усреднения полученную сумму делят на объём выборки минус 1. Остается решить один момент. Мы возводили отклонения в квадрат, в следствии чего единицы измерения изменились. Чтобы вернуться к прежним единицам измерения, необходимо извлечь квадратный корень. Полученная мера и есть стандартное отклонение.

Перейдём к практике. KNIME позволяет рассчитать описательные статистики, используя всего один узел Staticstics из Analytics > Statistics.. Далее к результату применяем узел Transpose из Manipulation > Table и получаем таблицу на Рис. 4

Рис 4 Описательные статистики показателя В среднем руб. на текущем счете на человека
Рис 4 Описательные статистики показателя В среднем руб. на текущем счете на человека

В таблице содержатся следующие характеристики выборки значений показателя В среднем руб. на текущем счете на человека :

Row count - объём (количество значений)

Min - минимальное значение

Max - максимальное значение

Median - медиана

Mean - среднее значение

Std. deviation - стандартное отклонение

Variance - дисперсия

Задача 2 Бокс плот

Существует также графический способ оценить описательные статистики выборки. Это бокс плот. Границы бокс плота это первый и третий квартили. Внутри жирной чертой показано значение медианы, а усы отходящие вниз и вверх обозначают минимальное и максимальное значение выборки, если значения попадают в интервал шириной в полтора межквартильных расстояния. Если же есть значение выходящее за эти пределы, то его обозначают точкой. Значения, которые далеко расположены от основной массы называются выбросы.

В KNIME построить бокс плот можно используя узел Box Plot из Views > JavaScript.

Рис. 5 плот показателя В среднем руб. на текущем счете на человека
Рис. 5 плот показателя В среднем руб. на текущем счете на человека

Обратите внимание на Рис. 5 и сравните значения статистик с результатом из таблицы полученной выше.

Задача 3 Гистограмма частот

Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиною h, а высоты равны количеству значений выборки, которые содержатся в интервале. Площадь гистограммы равна сумме всех частот, то есть объему выборки n.

Гистограмму можно построить с помощью узла Histogram из Views > JavaScript.

Рис. 6 Гистограмма частот показателя В среднем руб. на текущем счете на человека
Рис. 6 Гистограмма частот показателя В среднем руб. на текущем счете на человека

Видно, что наиболее частые значения в выборке содержатся в интервале от 21665 до 22445. Это заметно и по бокс плоту, поскольку медиана смещена в сторону больших значений показателя.

Формулы расчёта описательных статистик и подробности построения графиков Вы можете найти в моём персональном блоге.

Подписывайтесь на мой канал, чтобы узнавать о выходе новых статей.