Найти в Дзене
Властелин машин

Как разбить объекты на категории и дать им краткую характеристику

Зачастую возникает задача разбить объекты на категории и найти их типичные характеристики. Одним из способов сделать это является кластеризация на группы и подсчет средних метрик.

Рассмотрим задачу на примере датасета о цветках Ириса, который получим с помощью библиотеки Scikit-learn:

Теперь проведем кластеризацию методом k-средних и запишем метки в столбец 'cluster':

-2

Следует отметить, что кластеризация не зная о том, что у нас три класса объектов разделила их почти правильно (я немного схитрил, так как знал количество разных групп и задал это число при инициализации объекта класса):

-3

Визуализация по двум параметрам ('sepal length (cm)', 'petal length (cm)') подтверждает наш вывод о хорошей кластеризации:

-4

Имея в распоряжении классы, мы можем сгруппировать по ним объекты и подсчитать агрегирующие метрики, например, среднее:

-5

Чем сильнее средние признаков отличаются, тем лучше они характеризуют разные группы.

-6