47,9 тыс подписчиков
Алгоритмы кластеризации
Есть много типов алгоритмов кластеризации.
Многие алгоритмы используют меры сходства или расстояния между примерами в пространстве признаков, чтобы обнаружить плотные области наблюдений. Таким образом, часто рекомендуется масштабировать данные до использования алгоритмов кластеризации.
Центральным для всех целей кластерного анализа является понятие степени сходства (или несходства) между отдельными объектами, объединяемыми в кластеры. Метод кластеризации пытается сгруппировать объекты на основе предоставленного ему определения сходства.
Некоторые алгоритмы кластеризации требуют, чтобы вы указали или угадали количество кластеров, которые необходимо обнаружить в данных, тогда как другие требуют указания некоторого минимального расстояния между наблюдениями, в котором примеры могут считаться «близкими» или «связанными».
Таким образом, кластерный анализ представляет собой итеративный процесс, в котором субъективная оценка идентифицированных кластеров учитывается при изменении конфигурации алгоритма до тех пор, пока не будет достигнут желаемый или подходящий результат.
Библиотека scikit-learn предоставляет на выбор набор различных алгоритмов кластеризации.
Список из 10 наиболее популярных алгоритмов выглядит следующим образом:
Распространение сродства
Агломеративная кластеризация
BIRCH
DBSCAN
К-средние
Мини-пакетные K-средние
Средний сдвиг
OPTICS
Спектральная кластеризация
Смесь гауссианов
===================
Каждый алгоритм предлагает
1 минута
21 декабря 2021