Найти в Дзене
dmescheryakov.site

Разведочный анализ, знакомство с данными в KNIME

Здравствуйте, уважаемые читатели! Я начинаю цикл публикаций о базовых возможностях аналитической платформы KNIME в решении задач анализа данных. В этой статье мы познакомимся с данными ПАО Сбербанк, которые представлены в открытом доступе. Нас будет интересовать структура данных, наличие пропущенных значений в строках датасета, а также сбалансированность данных по группам. Сперва в нескольких предложениях расскажу что же такое KNIME Analytics Platform, поскольку в русскоязычном интернете очень мало о ней информации. KNIME - бесплатная система для интеллектуального анализа данных, которая даже в базовой версии обладает хорошим функционалом. Данная платформа предлагает интуитивно понятную рабочую среду без необходимости программировать. Сам процесс анализа проводится в виде графа. Вершины графа - это настраиваемые узлы, которые имеют вход (входы) и могут иметь выход (выходы). Поступаемая на вход узла информация, преобразуется согласно правилам, которые определил аналитик, и доступ

Здравствуйте, уважаемые читатели!

Я начинаю цикл публикаций о базовых возможностях аналитической платформы KNIME в решении задач анализа данных.

В этой статье мы познакомимся с данными ПАО Сбербанк, которые представлены в открытом доступе. Нас будет интересовать структура данных, наличие пропущенных значений в строках датасета, а также сбалансированность данных по группам.

Сперва в нескольких предложениях расскажу что же такое KNIME Analytics Platform, поскольку в русскоязычном интернете очень мало о ней информации.

KNIME - бесплатная система для интеллектуального анализа данных, которая даже в базовой версии обладает хорошим функционалом. Данная платформа предлагает интуитивно понятную рабочую среду без необходимости программировать.

Сам процесс анализа проводится в виде графа. Вершины графа - это настраиваемые узлы, которые имеют вход (входы) и могут иметь выход (выходы). Поступаемая на вход узла информация, преобразуется согласно правилам, которые определил аналитик, и доступна для других узлов на выходе.

Пример анализа изображен на картинке ниже Рис. 1

Рис. 1 Анализ в KNIME
Рис. 1 Анализ в KNIME

Анализ состоит из 8 простых шагов и использует 8 популярных базовых узлов:

CSV Reader - для чтения файлов в формате CSV;

Extract Missing Value Cause - для проверки наличия в датасете строк, в колонках которых пропущены значения;

Regex Split - для разделения значений в колонке на несколько новых колонок, используя регулярное выражение;

Column Rename - для переименования названий колонок датасета в более читабельные;

Pivoting - для построения сводной таблицы, чтобы оценить сбалансированность данных по группам;

Sorter - для сортировки строк по колонкам;

Row Filter - для того чтобы выбрать из датасета строки, удовлетворяющие какому-то условию;

CSV Writer - для сохранения преобразованного датасета в файл в формате CSV.

В результате анализа выявлено, что датасет представляет собой набор из 14 показателей по 89 регионам и России в целом с января 2013 по январь 2019. Обратите внимание на картинку Рис. 2.

Рис. 2 Фрагмент сводной таблицы
Рис. 2 Фрагмент сводной таблицы

Можно заметить, что некоторые показатели в определённые года не измерялись. Эта информация пригодится в дальнейшем при построении графиков, диаграмм, а также при проведении более сложных статистических анализов.

Полное описание анализа, ссылку на датасет и подробную справочную информацию об узлах KNIME Вы можете найти в моём персональном блоге.

Подписывайтесь на канал, чтобы узнавать о выходе новых статей.

Пишите своё мнение в комментариях.