Для освоения машинного обучения необходимы данные, которые не всегда имеются под рукой. Поэтому в библиотеке Scikit-learn реализованы функции для их генерации. В частности, датасеты для кластеризации можно создавать с помощью make_blobs из модуля sklearn.datasets. Эта функция позволяет задать следующие настройки:
n_samples - число точек;
n_features - число признаков;
centers - число центров кластеров;
cluster_std - стандартное отклонение кластеров;
center_box - рамки значений для центров кластеров;
shuffle - флаг, перемешивать ли точки кластеров;
random_state - инициализатор случайных чисел для повторения датасета;
return_centers - флаг, определяющий возвращать ли координаты кластеров;
Например, создадим набор из 1000 точек с 3 кластерами и 2 признаками, центры кластеров заданы в квадрате [2, 100]:
Визуализируем набор с помощью библиотеки Seaborn (читать подробнее):