В первой части был проведен беглый анализ потребления алкоголя в Санкт - Петербурге. В этой части наконец то применим Kmeans. В чем суть алгоритма: Это наиболее простой метод кластеризации данных. Метод машинного обучения без учителя. Задача метода разбить векторное множество на заданное количество классов путем минимизации среднеквадратичного отклонения на точках заданного кластера. Посмотреть как работает алгоритм, и поиграться с параметрами можно здесь Для начала откинем данные ранее 2009 года и добавим дополнительные признаки. А именно как изменялась динамика потребления алкоголя за год. Кратко по коду: Для того, что бы не прописывать название каждого столбы в ручном режиме создадим списки куда будем складывать методом 'append' названия столбцов. Для этого пробежимся циклом по годам и создадим название столбца из названия категории + год в текстовом формате. Дальше сложим все списки в один и создадим новый ДатаФрейм. И рассчитаем динамику потребления алкоголя по категориям. Так
В Питере - пить! (применение метода Kmeans на данных по потреблению алгоголя Росси). часть 2. применение метода Kmeans
19 декабря 202119 дек 2021
16
3 мин