Рассмотрим один из передовых методов кластеризации - DBSCAN. Для многих исследователей эффективность метода зачастую компенсируется сложностью его настройки, из-за чего предпочтение отдается другим алгоритмам. Давайте внесем ясность в вопрос и упростим использование DBSCAN. Основные параметры алгоритма, которые меняются от задачи к задаче: Они определяют 3 вида точек: Далее формируются отдельные кластера для каждой группы достижимых на расстоянии eps ядерных точек (возможно, одной). Граничным точкам соответствует кластер ближайшей (либо для экономии времени первой найденной в ее окрестности) ядерной точки. min_samples обычно задают исходя из минимального желаемого размера кластера. А для оценки eps разумно получить статистические показатели, а также гистограмму расстояний. Для демонстрационных целей создадим набор из трех кластеров точек (о том как подробнее читай тут): Для оценки расстояний можно вывести их квантили, вряд ли в качестве eps нам будет интересно значение более 10-20% ква