Здравствуйте, уважаемые читатели!
В этой статье мы рассмотрим описательные статистки, бокс плот и гистограмму частот на примере показателя В среднем руб. на текущем счете на человека, взятого из датасета ПАО Сбербанк. Научимся вычислять и строить их, используя KNIME. Это уже третья статья посвящённая данной аналитической платформе. Предыдущие Вы можете прочитать здесь Знакомство и здесь Визуализация.
Подготовительные работы
Последовательность действий представлена на Рис. 1
Начнём с того, что выберем из нашего датасета только необходимые сведения. Нам нужны значения показателя В среднем руб. на текущем счете на человека за 2018 год.
В недавно вышедшей версии KNIME 4.1 в разделе Labs появился новый экпериментальный узел Row Filter (Labs). Его мы и будем использовать для фильтрации.
Немного о KNIME Labs. Она даёт пользователям возможность попробовать новые плагины и функциональность, которая ещё находится в процессе разработки. На Рис. 2 представлено окно настройки узла Row Filter (Labs).
Могу сказать, что на данный момент этот узел удобно применять. Настройки интуитивно понятны. Финальная версия может конечно отличаться.
Также мы применим узел Column Filter c настройками Рис. 3, чтобы оставить только столбец со значением показателя
Теперь перейдём непосредственно к решению поставленных задач.
Задача 1 Описательные статистики
В математической статистике для того, чтобы охарактеризовать выборку используют описательные статистики. К ним относятся меры центральной тенденции и меры вариаций. Кратко об описательных статистиках на канале Вы можете посмотреть нарратив Описательные статистики.
Мера центральной тенденции — это способ охарактеризовать всю выборку одним числом — наиболее типичным значением, а мера вариации — диапазон в пределах которого значения выборки могут меняться. Популярны две пары описательных статистик: медиана и квартили, среднее и стандартное отклонение. Рассмотрим первую пару.
Медиана — это такое число, что ровно половина значений выборки меньше него, а другая половина больше. Из определения вытекает алгоритм нахождения медианы. Нужно упорядочить значения выборки. Если объём (количество значений выборке) нечётное число, то медиана равна центральному значению. А если объём чётное число, медиана находится как половина суммы значений слева и справа от центра.
Квартили - делят ряд значений выборки на 4 равные части, каждая часть включает 25%. Нетрудно догадаться, что второй квартиль совпадает со значением медианы. Расстояние между первым и третьим квартилем называется межквартильным расстоянием и туда попадают 50% значений выборки.
Другая пара - среднее и стандартное отклонение.
Среднее — это число равное сумме значений выборки, делённой на её объём.
Вариативность значений для среднего описывает стандартное отклонение. Логичным способом узнать насколько отличаются значения в выборке это найти разность между значением выборки и средним. Однако, сложив эти отклонения мы получим в сумме 0, поскольку есть величины отклонений как отрицательные, так и положительные. Чтобы это предотвратить, отклонения возводят в квадрат. Далее для усреднения полученную сумму делят на объём выборки минус 1. Остается решить один момент. Мы возводили отклонения в квадрат, в следствии чего единицы измерения изменились. Чтобы вернуться к прежним единицам измерения, необходимо извлечь квадратный корень. Полученная мера и есть стандартное отклонение.
Перейдём к практике. KNIME позволяет рассчитать описательные статистики, используя всего один узел Staticstics из Analytics > Statistics.. Далее к результату применяем узел Transpose из Manipulation > Table и получаем таблицу на Рис. 4
В таблице содержатся следующие характеристики выборки значений показателя В среднем руб. на текущем счете на человека :
Row count - объём (количество значений)
Min - минимальное значение
Max - максимальное значение
Median - медиана
Mean - среднее значение
Std. deviation - стандартное отклонение
Variance - дисперсия
Задача 2 Бокс плот
Существует также графический способ оценить описательные статистики выборки. Это бокс плот. Границы бокс плота это первый и третий квартили. Внутри жирной чертой показано значение медианы, а усы отходящие вниз и вверх обозначают минимальное и максимальное значение выборки, если значения попадают в интервал шириной в полтора межквартильных расстояния. Если же есть значение выходящее за эти пределы, то его обозначают точкой. Значения, которые далеко расположены от основной массы называются выбросы.
В KNIME построить бокс плот можно используя узел Box Plot из Views > JavaScript.
Обратите внимание на Рис. 5 и сравните значения статистик с результатом из таблицы полученной выше.
Задача 3 Гистограмма частот
Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиною h, а высоты равны количеству значений выборки, которые содержатся в интервале. Площадь гистограммы равна сумме всех частот, то есть объему выборки n.
Гистограмму можно построить с помощью узла Histogram из Views > JavaScript.
Видно, что наиболее частые значения в выборке содержатся в интервале от 21665 до 22445. Это заметно и по бокс плоту, поскольку медиана смещена в сторону больших значений показателя.
Формулы расчёта описательных статистик и подробности построения графиков Вы можете найти в моём персональном блоге.
Подписывайтесь на мой канал, чтобы узнавать о выходе новых статей.