Зачастую возникает задача разбить объекты на категории и найти их типичные характеристики. Одним из способов сделать это является кластеризация на группы и подсчет средних метрик.
Рассмотрим задачу на примере датасета о цветках Ириса, который получим с помощью библиотеки Scikit-learn:
Теперь проведем кластеризацию методом k-средних и запишем метки в столбец 'cluster':
Следует отметить, что кластеризация не зная о том, что у нас три класса объектов разделила их почти правильно (я немного схитрил, так как знал количество разных групп и задал это число при инициализации объекта класса):
Визуализация по двум параметрам ('sepal length (cm)', 'petal length (cm)') подтверждает наш вывод о хорошей кластеризации:
Имея в распоряжении классы, мы можем сгруппировать по ним объекты и подсчитать агрегирующие метрики, например, среднее:
Чем сильнее средние признаков отличаются, тем лучше они характеризуют разные группы.