Кластерный анализ – это раздел набора информации на группы, или кластеры, таким образом, чтобы объекты внутри одного кластера походили друг на друга, а объекты из других кластеров отличались. Главная цель кластеризации – найти внутреннюю структуру информации без учителя (без заранее известных меток классов).
Методы кластерного анализа:
Метод К-средних:
Начинается с задания количества кластеров (K).
Затем случайным образом выбираются K центроидов (представляющих собой центры кластеров).
Каждая точка информации присваивается к ближайшему центроиду.
Центроиды пересчитываются как средние значения точек информации в каждом кластере.
Процесс повторяется до тех пор, пока центроиды не стабилизируются.
Этот метод похож на то, как разложить камни на пляже. Начинаете с того, что решаете, сколько групп (кластеров) хотите создать. Затем случайным образом выбираете точки в данных и используете в качестве "центров" для созданных групп. После этого каждая точка информации присоединяется к ближайшему центру, как если бы она выбирала ближайший камень на пляже. После того как точки присоединены к группам, вы переопределяете центры групп, используя средние значения точек в каждой группе. Этот процесс повторяется до тех пор, пока центры групп не перестанут двигаться.
Иерархическая кластеризация:
Не требует задания числа кластеров заранее.
Начинается с того, что каждая точка данных рассматривается как отдельный кластер.
Затем объединяются ближайшие кластеры, пока точки данных не будут объединены в один кластер.
Этот процесс создает дерево, называемое дендрограммой, которое показывает иерархию кластеров.
Этот метод похож на то, как создаете семейное дерево. Начинаете с того, что каждая точка данных рассматривается как отдельный "член семьи". Затем объединяете близких "членов семьи" в группы, а затем эти группы объединяются в еще большие группы. Продолжаете объединять, пока "члены семьи" не объединятся в один "клан". Этот процесс создает дерево, которое показывает, как группы объединяются.
DBSCAN (Density-Based Spatial Clustering of Applications with Noise):
Подходит для обнаружения кластеров разных форм.
Основывается на плотности точек информации.
Определяет кластеры как области высокой плотности, разделенные областями низкой плотности.
Процесс начинается с выбора случайной точки и исследования окрестности данной точки.
Если окрестность содержит минимальное количество точек, эта точка считается шумом. В противном случае формируется новый кластер.
Этот метод как раз находит группы точек информации, которые сидят ближе друг к другу, как если бы они были в скоплении на вечеринке. Начинаете с того, что выбираете случайную точку и смотрите, насколько далеко от нее другие точки. Если они сидят слишком далеко, считаются "шумом" и остаются в одиночестве. Если сидят близко, создаете новую группу. Затем вы повторяете этот процесс для каждой точки, пока все не будут объединены в группы или останутся одиночками.