Знакомство
KNIME - это приложение с открытым исходным кодом для работы с данными. Представляет собой no-code решение для обработки и анализа данных, построения процессов обработки данных, визуализации и машинного обучения.
Основные возможности KNIME:
- читать данные из различных источников
- объединять и пересекать эти данные
- строить различные цепочки обработки этих данных
- создавать интерактивные визуализации данных
- использовать машинное обучение
- использовать готовые решения сообщества KNIME, для работы с данными
Где взять?
Скачать KNIME можно с официального сайта https://www.knime.com/downloads. Вы можете заполнить форму для получения новостей о платформе KNIME или перейти сразу к скачиванию нажав на "Download KNIME"
KNIME доступен на всех платформах. Скачав нужную вам версию установите его на свой компьютер.
Следите за обновлениями системы. KNIME поддерживает обратную совместимость и все созданные в старых версиях, будет работать в новых, но если вы получите процесс из более новой версии, то есть вероятность, что он у вас будет не будет работать или будет работать не так как задумано при создании процесса обработки данных.
Первый запуск
При первом запуске KNIME спросит где будет размещено рабочее пространство. Это папка в которой будут хранится все ваши процессы обработки данных, а так же и сами данные в момент обработки. За исключением данных обрабатываемых в БД и подобных средах.
По умолчанию будет предложена папка для текущего пользователя (документов пользователя)
Если это окно вам мешает, то вы можете поставить галочку не показывать это диалоговое окно при каждом запуске.
Далее можно изменить это в настройках, как и добавить несколько рабочих пространств, так и вернуть показ этого диалогового окна при запуске.
Знакомство с интерфейсом
По умолчанию интерфейс выглядит следующим образом.
В центре основное рабочее пространство, в котором по умолчанию открывается окно встроенного браузера с отображением страницы с новостями системы.
Далее рассмотрим каждое окно подробно.
KNIME Explorer
Отображение всех подключений и локального рабочего пространства.
LOCAL - это локальное рабочее пространство заданное при запуске системы. В один момент времени идет работа только с одним локальным рабочим пространством.
My-KNIME-Hub и EXAMPLES - это оба подключения к KNIME Hub. Информация о том что это такое и как с ним работать будет в следующих статьях.
На жестком диске каждая группа рабочих процессов представляет собой директорию, каждый рабочий процесс так же директорию, но уже с файлами процесса внутри.
Чтобы передать процесс другому человеку лучше всего использовать импорт и экспорт процессов из выпадающего меню. В таком случае система сделает zip архив этой папки в один файл с расширением knwf.
Чтобы запустить полученный файл с расширением knwf, вы должны сделать его импорт в свое рабочее пространство, затем открыть процесс и работать с ним.
Откроем первый рабочий процесс из примеров установленных по умолчанию локально.
В центральном окне открывается сам процесс, а большинство остальных окон начинают отображать его состояние или состояние выбранных нод.
Нода - это базовый элемент работы с данными. Каждый квадратик в процессе это одна нода, которая выполняет одно свое действие над данными. Это может быть простое действие например умножить данные в двух столбцах, так и более сложные, как в случае применения машинного обучения. Каждая нода это преобразование, цепочка преобразований, рабочий процесс. Подробно разобрано в следующих статьях.
Workflow Coach
Следующее окно в интерфейсе служит для подсказок вам, какие ноды вы могли бы использовать в своем процессе обработки данных. После настройки этой подсистемы она будет отправлять данные о том какие ноды и в каком порядке вы их используете, а по собранной статистике от всех пользователей этой подсистемы, будет подсказывать вам какие ноды можно применить в процессе работы с данными.
Если подсистема не настроена, то она ничего не подсказывает и ваши данные не отправляет.
Node Repository
Репозиторий нод. Содержит справочник всех возможных нод по обработке данных. Они сгруппированы по группам по смыслу работы с данными и можно открывать группу и смотреть что внутри, а так же можно воспользоваться поиском, который отфильтрует вам все ноды и раскроет все папки с ними.
В KNIME очень большое количество стандартных нод, а так же есть ноды написанные сообществом и их тоже можно установить и они появятся здесь же.
Outline
Отображения всего процесса обработки данных в уменьшенном окне, для простой навигации по процессу.
Console
Консоль - отображает всю информацию, ошибки, предупреждения возникающие при работе с процессом, его редактировании, выполнении.
Если возникла какая-то ошибка в момент выполнения процесса, то подробная информация о ошибке будет содержаться в консоле.
Description
В этом окне отображается все основная информация о рабочем процессе или о выбранной ноде. Описание, какие данные она принимает на вход, какие отдает, с каким типом данных работает, а так же описаны все настройки нод и как они влияют на её работу.
Заключение
Это только начало знакомства с системой KNIME, если она вас заинтересовала, читайте следующий статьи, в которых будет подробно описано и как работает KNIME в целом, так и разобрана подробная работа основных нод обработки данных.