Deductor Studio: кластеризация нейронной сетью Кохонена

Цель

Изучить технологию решения задачи кластеризации на примере кластеризации обучающихся по результатам выполнения лабораторных работ с использованием самоорганизующихся карт Кохонена (для обучения используем платформу Deductor Studio).

Теория

Самоорганизующиеся карты Кохонена – это одна из разновидностей нейросетевых алгоритмов. Этот алгоритм решает задачи кластеризации и проецирования многомерного пространства в пространство с более низкой размерностью. Он часто применяется для решения самых различных задач, от восстановления пропусков в данных до анализа и поиска закономерностей.

Импорт данных

Для начала работы нам потребуется импортировать файл с данными.

Нажмите на «Мастер импорта», выберите тип файла «Text» и интересующую вас обработку по пути (C:\Program Files\BaseGroup\Deductor\Samples).

В качестве примера был взят файл Самоорганизующаяся сеть Кохонена.txt.

Цель Изучить технологию решения задачи кластеризации на примере кластеризации обучающихся по результатам выполнения лабораторных работ с использованием самоорганизующихся карт Кохонена (для обучения
Цель Изучить технологию решения задачи кластеризации на примере кластеризации обучающихся по результатам выполнения лабораторных работ с использованием самоорганизующихся карт Кохонена (для обучения-2

Настройки импорта

После выбора обработки нам будет доступны настройки импорта текстового файла.

Во вкладке Настройка форматов в окошке «Разделители» у Целой и дробной части числа укажем знак точки.

В качестве задачи рассмотрим источник:

Шамстудинов, Т. М. Визуализация знаний в учебном процессе / Т. М. Шамстудинов // Научная визуализация. – 2023. т 15, №1, с. 100 – 111. - https://sv-journal.org/2023-1/09/?lang=ru.

В качестве оцениваемых показателей выступили следующие виды работ:

− ЛР1 «Создание однотабличной базы данных»;

− ЛР2 «Создание многотабличной базы данных»;

− ЛР3 «Запросы с вычислениями и параметрами»;

− ЛР4 «Запросы-действия»;

− ЛР5 «Создание и редактирование отчетов»;

− ЛР6 «Разработка графических элементов форм»;

− ЛР7 «Кнопочные формы»;

− ЛР8 «Создание подчиненных и связанных форм»;

− ЛР9 «Макросы»;

− Текущая аттестация.

Количество студентов на курсе - 63 человека.

После настройки типа данных запустим Процесс импорта данных из файла.

И выберем тип отображения Таблица.

Цель Изучить технологию решения задачи кластеризации на примере кластеризации обучающихся по результатам выполнения лабораторных работ с использованием самоорганизующихся карт Кохонена (для обучения-3

В результате в главном меню у вас появится таблица с отображением данных из файла.

Цель Изучить технологию решения задачи кластеризации на примере кластеризации обучающихся по результатам выполнения лабораторных работ с использованием самоорганизующихся карт Кохонена (для обучения-4

Построение карт Кохонена

Запустим «Мастер обработки» и в разделе «Data Mining» выберем «Карта Кохонена».

Цель Изучить технологию решения задачи кластеризации на примере кластеризации обучающихся по результатам выполнения лабораторных работ с использованием самоорганизующихся карт Кохонена (для обучения-5

Настройка назначений столбцов

На данной вкладке необходимо задать назначения столбцов.

Установим все поля кроме «Код» входными.

Во вкладке Настройка нормализации оставим значимость для всех полей без изменений, «Текущая аттестация» – галочку на «Установить значимость поля».

Цель Изучить технологию решения задачи кластеризации на примере кластеризации обучающихся по результатам выполнения лабораторных работ с использованием самоорганизующихся карт Кохонена (для обучения-6

Разбиение исходного набора

Поскольку любой метод кластеризации, в том числе и алгоритм Кохонена, субъективен, смысл в выделении тестового множества, как правило, отсутствует.

Оставим в обучающем множестве 100% записей.

На 3, 4 и 5 шагах алгоритма оставим все настройки по умолчанию.

Цель Изучить технологию решения задачи кластеризации на примере кластеризации обучающихся по результатам выполнения лабораторных работ с использованием самоорганизующихся карт Кохонена (для обучения-7

Настройка обучения

На 5 слайде настраиваются параметры обучения алгоритма Кохонена.

Здесь задаются параметры, как на рис.

Можно указать конкретное число кластеров, которые хотите получить.

Цель Изучить технологию решения задачи кластеризации на примере кластеризации обучающихся по результатам выполнения лабораторных работ с использованием самоорганизующихся карт Кохонена (для обучения-8

Построение карты Кохонена

В следующем окне, нажав кнопку Пуск, можно будет увидеть динамику процесса обучения сети Кохонена. По умолчанию алгоритм делает 500 итераций (эпох).

Если предварительно установить флаг Рестарт, то веса нейронов будут проинициализированы согласно выбранному на предыдущем шаге способу инициализации, иначе обучение начнется с текущих весовых коэффициентов.

Цель Изучить технологию решения задачи кластеризации на примере кластеризации обучающихся по результатам выполнения лабораторных работ с использованием самоорганизующихся карт Кохонена (для обучения-9

Способ отображения результатов

Во вкладке Определение способов отображения выбираем Карта Кохонена.

Параметры отображения задаются на специальной вкладке мастера.

Список допустимых отображений карты содержит три группы – входные поля, выходные поля и специальные.

Последние не связаны с каким-либо полем набора данных, а служат для анализа всей карты.

Цель Изучить технологию решения задачи кластеризации на примере кластеризации обучающихся по результатам выполнения лабораторных работ с использованием самоорганизующихся карт Кохонена (для обучения-10

Примеры самоорганизующихся карт Кохонена

Несколько кластеров
Несколько кластеров
Два кластера - 0 кластер
Два кластера - 0 кластер
Цель Изучить технологию решения задачи кластеризации на примере кластеризации обучающихся по результатам выполнения лабораторных работ с использованием самоорганизующихся карт Кохонена (для обучения-13
Два кластера - 1 кластер
Два кластера - 1 кластер

Готовая карта Кохонена: Что-если

0 кластер
0 кластер
1 кластер
1 кластер
3 кластера (как в научной публикации Т.М. Шамсутдиновой)
3 кластера (как в научной публикации Т.М. Шамсутдиновой)
Цель Изучить технологию решения задачи кластеризации на примере кластеризации обучающихся по результатам выполнения лабораторных работ с использованием самоорганизующихся карт Кохонена (для обучения-18

Представление результатов: многомерная диаграмма

Цель Изучить технологию решения задачи кластеризации на примере кластеризации обучающихся по результатам выполнения лабораторных работ с использованием самоорганизующихся карт Кохонена (для обучения-19

В качестве Упражнения составьте собственную обучающую выборку, которая подходит для самоорганизующихся карт Кохонена, обучите нейронную сеть, получите оптимальные параметры. Результаты (перечень оцениваемых показателей и результаты кластеризации) прилагайте в комментариях под текущим материалом.