Программирование на языке Python и использование его в повседневной жизни

Методология Группировки и Анализа Многомерных Данных Пространственного Распределения через Кластеризацию и Инженерию Признаков

18 ноября 202518 ноя 2025

11 мин

Настоящая работа представляет системный подход к анализу и группировке многомерных наборов данных, содержащих пространственные координаты, метрические параметры окружающей среды и целевые переменные классификации. В статье описываются методы подготовки данных, выявления закономерностей, кластеризации наблюдений и оценки качества группировки. Практические примеры демонстрируют применение алгоритмов машинного обучения для выделения однородных групп и идентификации критических участков на основе многоусловной логики классификации. Аналитика больших наборов данных требует применения специализированных методов обработки и классификации. Когда данные содержат десятки параметров и сотни или тысячи наблюдений, ручной анализ становится неэффективным. Задача заключается в автоматическом выявлении структуры данных: какие наблюдения похожи друг на друга, существуют ли скрытые закономерности, можно ли сегментировать данные на однородные подмножества. Особую сложность представляет работа с разнородн

Оглавление

Аннотация
Введение
Проблема группировки многомерных данных

Аннотация

Введение

Проблема группировки многомерных данных

Аналитика больших наборов данных требует применения специализированных методов обработки и классификации. Когда данные содержат десятки параметров и сотни или тысячи наблюдений, ручной анализ становится неэффективным. Задача заключается в автоматическом выявлении структуры данных: какие наблюдения похожи друг на друга, существуют ли скрытые закономерности, можно ли сегментировать данные на однородные подмножества.

Особую сложность представляет работа с разнородными данными, где признаки измеряются в разных единицах и имеют различные диапазоны значений. Например, координаты в градусах, высота в метрах, температура в градусах Цельсия, но все эти признаки должны учитываться при определении сходства между объектами.

Цели и задачи

Целью данной работы является описание и обоснование методологии группировки данных, включающей:

Загрузку и первичную обработку многомерных наборов данных
Преобразование и нормализацию признаков
Разработку логики классификации на основе многоусловных критериев
Применение алгоритмов кластеризации для выделения однородных групп
Оценку качества полученной группировки
Визуализацию результатов анализа

Архитектура системы обработки данных

Общая структура

Система анализа данных строится на основе объектно-ориентированного подхода, где каждый компонент отвечает за определенный аспект обработки:

Загрузка и преобразование: извлечение данных из источников, приведение к единому формату
Инженерия признаков: создание новых признаков, преобразование категориальных переменных
Классификация: применение правил классификации для выявления критических участков
Кластеризация: группировка наблюдений на основе многомерного сходства
Оценка: расчет метрик качества группировки
Визуализация: представление результатов в виде графиков и дашбордов

Используемые библиотеки и инструменты

Реализация системы опирается на следующие Python-библиотеки:

import pandas as pd # Работа с табличными данными
import numpy as np # Вычисления с массивами
import matplotlib.pyplot # Создание статических графиков
from sklearn.cluster import KMeans # Алгоритм кластеризации
from sklearn.decomposition import PCA # Снижение размерности
from sklearn.metrics import silhouette_score # Оценка качества
from dash import Dash, html, dcc, callback # Создание веб-дашбордов
import plotly.express as px # Интерактивные графики
import sqlite3 # Работа с БД

Подготовка данных

Загрузка из источников

Данные загружаются из внешних источников, например, из базы данных:

con = sqlite3.connect("database.db")
df = pd.read_sql("SELECT * FROM table", con=con)

Типичный набор данных содержит 833 наблюдения и 18 признаков, включающих:

Идентификаторы объектов и точек наблюдения
Временные метки
Географические координаты (широта, долгота)
Метрические параметры (высота, температура, частота)
Категориальные признаки (тип местности)
Результаты предварительной классификации

Преобразование признаков

При подготовке данных к кластеризации необходимо выполнить ряд преобразований:

# Преобразование времени в числовой формат

if "time" in df.columns:

df["time"] = pd.to_datetime(df["time"], utc=True)

df["time"] = df["time"].astype('int64')

# Кодирование категориальных переменных

if "place_type" in df.columns:

df["place_type"] = df["place_type"].map({"water": 0, "forest": 1, "buildings": 2})

# Удаление неиспользуемых колонок

if "country" in df.columns:

df = df.drop("country", axis=1)

Эти преобразования обеспечивают возможность работы с данными в алгоритмах машинного обучения, которые требуют числовых входов.

Классификация и выявление критических участков

Логика многоусловной классификации

Один из ключевых этапов анализа — выявление объектов, удовлетворяющих определенным критериям. Это делается путем применения набора условий к каждому наблюдению:

class ClassificationAgent:
def __init__(self, table):
self.table = table

def classify_critical_areas(self):
"""
Классификация участков по критериям опасности
"""
indexes = self.table.index.tolist()
results = []

for i in range(len(indexes)):
row = self.table.loc[i]
indicator1 = indicator2 = indicator3 = indicator4 = 0

# Первый критерий
if row["forest_feature"] > 3 and row["temperature"] > 20:
indicator1 = 1
elif row["forest_feature"] > 5:
indicator1 = 1

# Второй критерий
if row["water_feature"] > 3 and row["elevation"] < 400:
indicator2 = 1
elif row["water_feature"] > 10:
indicator2 = 1

# Третий критерий
if row["buildings_feature"] < 150:
indicator3 = 1

results.append({
"indicator1": indicator1,
"indicator2": indicator2,
"indicator3": indicator3,
"total_score": indicator1 + indicator2 + indicator3
})

result_df = pd.DataFrame(results)
self.table = pd.concat([self.table, result_df], axis=1)
return self.table

Эта логика позволяет выявить участки, которые соответствуют определенным характеристикам окружающей среды, и назначить им оценку риска на основе суммы критериев.

Визуализация границ классификации

Для наглядного представления граничных условий используется визуализация:

# Визуализация первого критерия

plt.plot(table["point_id"], table["forest_feature"])

plt.axhline(5, color="red", label="Жесткая граница")

plt.axhline(3, color="yellow", label="Мягкая граница")

plt.legend()

plt.show()

# Визуализация второго критерия

plt.plot(table["point_id"], table["water_feature"])

plt.axhline(10, color="red")

plt.axhline(3, color="yellow")

plt.show()

# Визуализация третьего критерия

plt.plot(table["point_id"], table["buildings_feature"])

plt.axhline(150, color="red")

plt.show()

Красная линия обозначает жесткую границу (все значения выше этой линии считаются критическими), желтая линия — мягкую границу (значения требуют дополнительного анализа в контексте других условий).

Методы кластеризации

Снижение размерности данных

Перед применением алгоритма кластеризации полезно уменьшить размерность данных с помощью метода главных компонент (PCA):

# Снижение с 18 признаков до 2 компонент для визуализации

pca = PCA(n_components=2)

data_2d = pca.fit_transform(data)

PCA преобразует исходное признаковое пространство в новое пространство меньшей размерности, где первые компоненты объясняют максимальную дисперсию данных. Это позволяет сохранить большинство информации при снижении вычислительной сложности.

Алгоритм K-Means

K-Means решает задачу разбиения данных на K кластеров путем минимизации суммы квадратических отклонений:

class GroupingAgent:
def __init__(self, data_table):
self.data_table = data_table

def perform_clustering(self, num_clusters, save_results=False):
"""
Выполняет кластеризацию данных методом K-Means
"""
# Подготовка данных (преобразования, описанные выше)
if "time" in self.data_table.columns:
self.data_table["time"] = pd.to_datetime(self.data_table["time"], utc=True)
self.data_table["time"] = self.data_table["time"].astype('int64')

if "place_type" in self.data_table.columns:
self.data_table["place_type"] = self.data_table["place_type"].map({...})

# Снижение размерности
pca = PCA(n_components=2)
data_2d = pca.fit_transform(self.data_table)

# Обучение модели
kmeans = KMeans(n_clusters=num_clusters)
kmeans.fit(data_2d)
cluster_labels = kmeans.fit_predict(self.data_table)

# Сохранение результатов
if save_results:
if "cluster_result" in self.data_table.columns:
self.data_table = self.data_table.drop("cluster_result", axis=1)

labels = pd.Series(cluster_labels)
labels.name = "cluster_result"
self.data_table = pd.concat([self.data_table, labels], axis=1)

return cluster_labels, data_2d, kmeans

Алгоритм работает итеративно:

Инициализирует K центроидов случайным образом
Назначает каждую точку ближайшему центроиду
Пересчитывает центроиды как средние точек в каждом кластере
Повторяет шаги 2-3 до сходимости

Визуализация результатов кластеризации

# Визуализация кластеров в 2D пространстве

plt.scatter(data_2d[:, 0], data_2d[:, 1], c=cluster_labels, cmap='viridis')

plt.xlabel('Компонента 1')

plt.ylabel('Компонента 2')

plt.title('Результаты кластеризации')

plt.show()

Оценка качества кластеризации

Коэффициент силуэта

Коэффициент силуэта измеряет, насколько хорошо сформированы кластеры, сравнивая внутрикластерные и межкластерные расстояния:

silhouette_avg = silhouette_score(data_table, cluster_labels)

print(f"Средний коэффициент силуэта: {silhouette_avg:.4f}")

Значения коэффициента находятся в диапазоне от -1 до 1:

Значения близкие к 1 указывают на хорошо разделенные и плотные кластеры
Значения близкие к 0 указывают на перекрывающиеся кластеры
Отрицательные значения указывают на неправильное разбиение

Интерпретация результатов

Качественная интерпретация кластеров выполняется через анализ характеристик каждого кластера:

# Анализ средних значений признаков в каждом кластере

cluster_profiles = data_table.groupby('cluster_result').agg({

'elevation': 'mean',

'temperature': 'mean',

'forest_feature': 'mean',

'water_feature': 'mean'

}).round(2)

print(cluster_profiles)

Это показывает, какие характеристики отличают один кластер от другого.

Интерактивные дашборды

Архитектура дашборда

Для изучения данных в интерактивном режиме создается веб-приложение с использованием Dash:

class InteractiveAnalysis:

app = Dash()

def __init__(self, data_table):

self.data_table = data_table

# Структура дашборда

app.layout = [

html.H1(children='Аналитический дашборд', style={'textAlign': 'center'}),

html.H2(children='Анализ по сезонам', style={'textAlign': 'center'}),

dcc.Dropdown(["Зима", "Весна", "Лето", "Осень"], "Весна", id="season_selector"),

html.Div(id='season_output'),

html.H2(children='Анализ по времени суток', style={'textAlign': 'center'}),

dcc.Dropdown(["Утро", "День", "Вечер", "Ночь"], "Утро", id="time_selector"),

dcc.Graph(id="time_graph"),

dcc.Graph(id="elevation_analysis"),

html.H2(children='Визуализация маршрутов', style={'textAlign': 'center'}),

dcc.Dropdown(id="route_selector"),

dcc.Graph(id="route_map")

]

@callback(Output("season_output", "children"), Input("season_selector", "value"))

def analyze_season(selected_season):

"""Анализ данных по выбранному сезону"""

df_datetime = pd.to_datetime(self.data_table["time"])

if selected_season == "Зима":

filtered = self.data_table[df_datetime.dt.month.isin([12, 1, 2])]

elif selected_season == "Весна":

filtered = self.data_table[df_datetime.dt.month.isin([3, 4, 5])]

elif selected_season == "Лето":

filtered = self.data_table[df_datetime.dt.month.isin([6, 7, 8])]

elif selected_season == "Осень":

filtered = self.data_table[df_datetime.dt.month.isin([9, 10, 11])]

return f"Средние значения: {filtered['frequency'].mean():.2f}"

@callback(Output("time_graph", "figure"), Input("time_selector", "value"))

def analyze_time_period(selected_period):

"""Анализ данных по времени суток"""

df_datetime = pd.to_datetime(self.data_table["time"])

if selected_period == "Утро":

hours = [6, 7, 8, 9, 10, 11, 12]

elif selected_period == "День":

hours = [13, 14, 15, 16]

elif selected_period == "Вечер":

hours = [17, 18, 19, 20, 21, 22, 23, 24]

elif selected_period == "Ночь":

hours = [1, 2, 3, 4, 5]

filtered = self.data_table[df_datetime.dt.hour.isin(hours)]

filtered["hour"] = pd.to_datetime(filtered["time"]).dt.hour

hourly_stats = filtered.groupby('hour')['temperature'].mean().reset_index()

return px.line(hourly_stats, x="hour", y="temperature",

title=f"Температура - {selected_period}")

Обновление базы данных

После завершения анализа результаты сохраняются в базу данных:

class DataPersistence:

def save_to_database(self, data_table, db_path="database.db"):

"""

Сохранение обработанных данных в базу данных

"""

try:

con = sqlite3.connect(db_path)

data_table.to_sql("processed_data", con=con, if_exists="append", index=False)

print("Данные успешно сохранены")

except Exception as error:

print(f"Ошибка при сохранении: {error}")

Практическое применение

Полный цикл анализа

Типичный сценарий использования системы выглядит следующим образом:

# Загрузка данных

con = sqlite3.connect("database.db")

df = pd.read_sql("SELECT * FROM source_table", con=con)

# Создание классификатора

classifier = ClassificationAgent(df)

df = classifier.classify_critical_areas()

# Создание кластеризатора

clusterer = GroupingAgent(df)

labels, data_2d, model = clusterer.perform_clustering(num_clusters=3, save_results=True)

# Оценка качества

score = silhouette_score(df, labels)

# Сохранение результатов

persistence = DataPersistence()

persistence.save_to_database(df)

# Создание дашборда

analyzer = InteractiveAnalysis(df)

analyzer.app.run(debug=True)

Заключение

Настоящая работа продемонстрировала системный подход к анализу и группировке многомерных пространственно-временных данных. Ключевые выводы:

Надлежащая подготовка данных (нормализация, анализ распределений, отбор признаков) является основой качественной кластеризации.
Выбор метода кластеризации должен определяться характеристиками данных и целями анализа. Рекомендуется применение комбинированных подходов.
Оценка качества кластеризации требует использования нескольких метрик (силуэт, Дэвис-Болдин, Калински-Харабаз), а не одной единственной.
Визуализация результатов, включая трехмерное представление в географическом пространстве, критична для выявления закономерностей и аномалий.
Интерпретация кластеров через анализ профилей позволяет получать практические выводы, применимые к решению прикладных задач.

Описанная методология может быть расширена на более крупные наборы данных и применена к различным предметным областям, требующим группировки и анализа пространственно-распределенных объектов.