Кластерный анализ – это раздел набора информации на группы, или кластеры, таким образом, чтобы объекты внутри одного кластера походили друг на друга, а объекты из других кластеров отличались. Главная цель кластеризации – найти внутреннюю структуру информации без учителя (без заранее известных меток классов).
Методы кластерного анализа:
Метод К-средних:
Начинается с задания количества кластеров (K).
Затем случайным образом выбираются K центроидов (представляющих собой центры кластеров).
Каждая точка информации присваивается к ближайшему центроиду.
Центроиды пересчитываются как средние значения точек информации в каждом кластере.
Процесс повторяется до тех пор, пока центроиды не стабилизируются.
Этот метод похож на то, как разложить камни на пляже. Начинаете с того, что решаете, сколько групп (кластеров) хотите создать. Затем случайным образом выбираете точки в данных и используете в качестве "центров" для созданных групп. После этого каждая точка информации присоединяется к бли