Найти тему
Data Surfing

KNIME Analytics Platform 🔀 Как инструмент работы с данными

Оглавление

Знакомство

KNIME - это приложение с открытым исходным кодом для работы с данными. Представляет собой no-code решение для обработки и анализа данных, построения процессов обработки данных, визуализации и машинного обучения.

Основные возможности KNIME:

  • читать данные из различных источников
  • объединять и пересекать эти данные
  • строить различные цепочки обработки этих данных
  • создавать интерактивные визуализации данных
  • использовать машинное обучение
  • использовать готовые решения сообщества KNIME, для работы с данными
Интерфейс KNIME
Интерфейс KNIME

Где взять?

Скачать KNIME можно с официального сайта https://www.knime.com/downloads. Вы можете заполнить форму для получения новостей о платформе KNIME или перейти сразу к скачиванию нажав на "Download KNIME"

KNIME доступен на всех платформах. Скачав нужную вам версию установите его на свой компьютер.

Следите за обновлениями системы. KNIME поддерживает обратную совместимость и все созданные в старых версиях, будет работать в новых, но если вы получите процесс из более новой версии, то есть вероятность, что он у вас будет не будет работать или будет работать не так как задумано при создании процесса обработки данных.

Первый запуск

При первом запуске KNIME спросит где будет размещено рабочее пространство. Это папка в которой будут хранится все ваши процессы обработки данных, а так же и сами данные в момент обработки. За исключением данных обрабатываемых в БД и подобных средах.

Окно с выбором рабочего пространства при первом запуске KNIME
Окно с выбором рабочего пространства при первом запуске KNIME

По умолчанию будет предложена папка для текущего пользователя (документов пользователя)

Если это окно вам мешает, то вы можете поставить галочку не показывать это диалоговое окно при каждом запуске.

Далее можно изменить это в настройках, как и добавить несколько рабочих пространств, так и вернуть показ этого диалогового окна при запуске.
Меню настроек рабочего пространства.
Меню настроек рабочего пространства.

Знакомство с интерфейсом

По умолчанию интерфейс выглядит следующим образом.

Интерфейс KNIME при открытии программы.
Интерфейс KNIME при открытии программы.

В центре основное рабочее пространство, в котором по умолчанию открывается окно встроенного браузера с отображением страницы с новостями системы.

Далее рассмотрим каждое окно подробно.

KNIME Explorer

Отображение всех подключений и локального рабочего пространства.

Обзор рабочих процессов и папок.
Обзор рабочих процессов и папок.

LOCAL - это локальное рабочее пространство заданное при запуске системы. В один момент времени идет работа только с одним локальным рабочим пространством.

My-KNIME-Hub и EXAMPLES - это оба подключения к KNIME Hub. Информация о том что это такое и как с ним работать будет в следующих статьях.

На жестком диске каждая группа рабочих процессов представляет собой директорию, каждый рабочий процесс так же директорию, но уже с файлами процесса внутри.

Чтобы передать процесс другому человеку лучше всего использовать импорт и экспорт процессов из выпадающего меню. В таком случае система сделает zip архив этой папки в один файл с расширением knwf.

Контекстное меню процесса
Контекстное меню процесса
Чтобы запустить полученный файл с расширением knwf, вы должны сделать его импорт в свое рабочее пространство, затем открыть процесс и работать с ним.

Откроем первый рабочий процесс из примеров установленных по умолчанию локально.

Интерфейс программы с открытым рабочим процессом.
Интерфейс программы с открытым рабочим процессом.

В центральном окне открывается сам процесс, а большинство остальных окон начинают отображать его состояние или состояние выбранных нод.

Нода - это базовый элемент работы с данными. Каждый квадратик в процессе это одна нода, которая выполняет одно свое действие над данными. Это может быть простое действие например умножить данные в двух столбцах, так и более сложные, как в случае применения машинного обучения. Каждая нода это преобразование, цепочка преобразований, рабочий процесс. Подробно разобрано в следующих статьях.

Workflow Coach

Следующее окно в интерфейсе служит для подсказок вам, какие ноды вы могли бы использовать в своем процессе обработки данных. После настройки этой подсистемы она будет отправлять данные о том какие ноды и в каком порядке вы их используете, а по собранной статистике от всех пользователей этой подсистемы, будет подсказывать вам какие ноды можно применить в процессе работы с данными.

Окно не активного подсказчика.
Окно не активного подсказчика.

Если подсистема не настроена, то она ничего не подсказывает и ваши данные не отправляет.

Node Repository

Репозиторий нод. Содержит справочник всех возможных нод по обработке данных. Они сгруппированы по группам по смыслу работы с данными и можно открывать группу и смотреть что внутри, а так же можно воспользоваться поиском, который отфильтрует вам все ноды и раскроет все папки с ними.

Репозиторий нод.
Репозиторий нод.

В KNIME очень большое количество стандартных нод, а так же есть ноды написанные сообществом и их тоже можно установить и они появятся здесь же.

Outline

Отображения всего процесса обработки данных в уменьшенном окне, для простой навигации по процессу.

Окно обзора рабочего процесса
Окно обзора рабочего процесса

Console

Консоль - отображает всю информацию, ошибки, предупреждения возникающие при работе с процессом, его редактировании, выполнении.

Окно консоли
Окно консоли

Если возникла какая-то ошибка в момент выполнения процесса, то подробная информация о ошибке будет содержаться в консоле.

Description

В этом окне отображается все основная информация о рабочем процессе или о выбранной ноде. Описание, какие данные она принимает на вход, какие отдает, с каким типом данных работает, а так же описаны все настройки нод и как они влияют на её работу.

Пример описания ноды чтения файлов.
Пример описания ноды чтения файлов.

Заключение

Это только начало знакомства с системой KNIME, если она вас заинтересовала, читайте следующий статьи, в которых будет подробно описано и как работает KNIME в целом, так и разобрана подробная работа основных нод обработки данных.

-13