Найти тему

Silhouette Method в Машинном обучении простыми словами

Фото: Jonas Minden / Unsplash
Фото: Jonas Minden / Unsplash

Метод силуэтов – способ изучения разделительного расстояния между результирующими кластерами Наблюдений (Observation), часто используемый вместе с Методом K-средних (K-Means). График силуэта отображает меру того, насколько близко каждая точка в одном кластере находится к точкам в соседних кластерах, и, таким образом, обеспечивает способ визуальной оценки количества кластеров. Эта мера имеет диапазон [-1, 1]:

-2

Коэффициенты силуэта (так называются эти значения) около +1 указывают на то, что образец находится далеко от соседних кластеров. Значение, близкое к нулю указывает, что выборка находится на границе принятия решения между двумя соседними кластерами или очень близко к ней, а отрицательные значения указывают на то, что эти выборки могли быть назначены неправильному кластеру.

В этом примере анализ силуэта используется для выбора оптимального значения для числа кластеров (n_clusters). Графики ниже показывают, что значения n_clusters 3, 5 и 6 – плохой выбор для данных данных из-за наличия кластеров с оценками силуэта ниже среднего, а также из-за значительных колебаний в размере участков силуэта. Анализ силуэта более неоднозначен при выборе между 2 и 4:

-3

-4

-5

-6

Также по толщине силуэта можно визуализировать размер кластера. График силуэта для кластера 0, когда n_clusters равно 2, больше по размеру из-за группирования 3 субкластеров в один большой кластер. Однако, когда n_clusters равно 4, все графики имеют более или менее одинаковую толщину и, следовательно, имеют аналогичные размеры, что также можно проверить на помеченном графике разброса справа.

Автор оригинальной статьи: scikit-learn.org

Понравилась статья? Поддержите нас, поделившись статьей в социальных сетях и подписавшись на канал. И попробуйте курсы на Udemy.