Найти тему

Методы кластерного анализа

Кластерный анализ – это раздел набора информации на группы, или кластеры, таким образом, чтобы объекты внутри одного кластера походили друг на друга, а объекты из других кластеров отличались. Главная цель кластеризации – найти внутреннюю структуру информации без учителя (без заранее известных меток классов).

Методы кластерного анализа:

Метод К-средних:

Начинается с задания количества кластеров (K).

Затем случайным образом выбираются K центроидов (представляющих собой центры кластеров).

Каждая точка информации присваивается к ближайшему центроиду.

Центроиды пересчитываются как средние значения точек информации в каждом кластере.

Процесс повторяется до тех пор, пока центроиды не стабилизируются.

Этот метод похож на то, как разложить камни на пляже. Начинаете с того, что решаете, сколько групп (кластеров) хотите создать. Затем случайным образом выбираете точки в данных и используете в качестве "центров" для созданных групп. После этого каждая точка информации присоединяется к ближайшему центру, как если бы она выбирала ближайший камень на пляже. После того как точки присоединены к группам, вы переопределяете центры групп, используя средние значения точек в каждой группе. Этот процесс повторяется до тех пор, пока центры групп не перестанут двигаться.

Иерархическая кластеризация:

Не требует задания числа кластеров заранее.

Начинается с того, что каждая точка данных рассматривается как отдельный кластер.

Затем объединяются ближайшие кластеры, пока точки данных не будут объединены в один кластер.

Этот процесс создает дерево, называемое дендрограммой, которое показывает иерархию кластеров.

Этот метод похож на то, как создаете семейное дерево. Начинаете с того, что каждая точка данных рассматривается как отдельный "член семьи". Затем объединяете близких "членов семьи" в группы, а затем эти группы объединяются в еще большие группы. Продолжаете объединять, пока "члены семьи" не объединятся в один "клан". Этот процесс создает дерево, которое показывает, как группы объединяются.


DBSCAN (Density-Based Spatial Clustering of Applications with Noise):

Подходит для обнаружения кластеров разных форм.

Основывается на плотности точек информации.

Определяет кластеры как области высокой плотности, разделенные областями низкой плотности.

Процесс начинается с выбора случайной точки и исследования окрестности данной точки.

Если окрестность содержит минимальное количество точек, эта точка считается шумом. В противном случае формируется новый кластер.

Этот метод как раз находит группы точек информации, которые сидят ближе друг к другу, как если бы они были в скоплении на вечеринке. Начинаете с того, что выбираете случайную точку и смотрите, насколько далеко от нее другие точки. Если они сидят слишком далеко, считаются "шумом" и остаются в одиночестве. Если сидят близко, создаете новую группу. Затем вы повторяете этот процесс для каждой точки, пока все не будут объединены в группы или останутся одиночками.