Найти в Дзене
Data Surfing

KNIME 🔀 Что такое нода. Репозиторий нод и дополнения.

Оглавление

Нода в KNIME

Любой процесс обработки данных в KNIME состоит из нод. А порядок выполнения процесса зависит от последовательности соединения нод. Данные с выхода одной ноды передаются на вход следующей. Так же передаются переменные, подключения и другие специализированные объекты.

Каждая нода выполняет какое-то определенное действие. Это может быть как например арифметическое действие или управление потоком обработки данных, так и более сложный набор действий в случае например машинного обучения.

Практически все ноды можно настраивать. Открыть настройки можно через контекстное меню или по F6. У всех нод это свой набор настроек в зависимости от функционала этой ноды. Общее для всех, это назначение переменных Flow Variables, подробнее о которых будет в следующих статьях.

Настройки ноды чтения CSV файла.
Настройки ноды чтения CSV файла.

Все настройки разбиты на вкладки, по назначению этих настроек. Это не обязательно и определяется разработчиком этой ноды.

Все настройки каждой ноды хранятся в папке рабочего процесса. Для каждой ноды создается папка этой ноды, в которой хранится файл setting.xml со всеми настройками ноды. В процессе работы в этой же папке будут хранится и данные обработанные этой нодой, если таковые есть.
Пример ноды без настроек
Пример ноды без настроек

Репозиторий нод

Все ноды доступны в репозитории нод. Они сгруппированы по применению, по типам, по функциям.

Репозиторий нод
Репозиторий нод

Верхний уровень групп выглядит так:

IO - ввод и вывод. Все для работы с файлами, чтение, запись, удаление, работа с подключениями файловых систем и т.д.

Manipulation - все про манипуляции с данными, строками, колонками, таблицами.

Views - построение графиков и представлений.

Analytics - аналитика данных, машинное обучение.

DB - работа с базами данных. Подключения, выполнение запросов, чтение, запись данных.

Other Data Type - изначально тут работа с датами и временем.

Structured Data - JSON, xml.

Scripting - ноды с возможностью писать код. Есть поддержка Java и Python (надо установить из дополнений).

Tools & Services - работа с REST API.

KNIME Labs - ноды из лаборатории KNIME.

Workflow Control - управление процессом обработки данных. Переменные, ветвления, циклы.

Workflow Abstraction - работа с настройками рабочих процессов, виджеты визуальных компонентов настроек. Работа с рабочими процессами, вызов одних из других и т.д.

Reporting - работа с отчетами в формате BIRT.

Репозиторий нод при активном поиске
Репозиторий нод при активном поиске
Вы можете использовать поиск, для более быстрого перехода к нужной вам ноде. Как видно из примера поиск проходит по части слова и без учета регистра.

Все добавляемые ноды будут так же находится в этом репозитории.

Добавить ноды можно через загрузку дополнений.

Вызов окна установки расширений.
Вызов окна установки расширений.

В появившемся окне можно выбрать требуемые вам дополнения и установить их. Каждое дополнение это по сути определенный набор нод. Они появятся в соответствующем разделе репозитория нод, по их функциональному назначению. Не ищите там новой группы с именем дополнения или чем-то подобным.

Окно установки дополнений
Окно установки дополнений

Так же есть дополнения и для разработчиков нод. Т.к. вся платформа KNIME это инструмент с открытым исходным кодом, то кто угодно может заняться разработкой собственных нод.

Отдельно хотел упомянуть раздел KNIME Labs, в нем находятся новые ноды или новые версии старых нод, которые проходят открытое тестирование, далее эти ноды могут быть добавлены в основной перечень нод.

Заключение.

Нода в KNIME это основной элемент при помощи которого проходит обработка данных. Набор нод и определяет процесс обработки данных.

-7