1304 подписчика
⚡ Моделирование сложных данных: модель Гауссовой смеси
В анализе данных часто встречаются распределения с несколькими пиковыми значениями — например, распределение времени отклика веб-сервера или потребление энергии устройством в разных режимах работы. Обычное нормальное распределение с такой задачей не справится.
Модель Гауссовой смеси — это гибкая вероятностная модель, которая аппроксимирует сложное, многомодальное распределение как взвешенную сумму нескольких простых нормальных распределений.
Такие модели применяются в кластеризации, распознавании образов, обработке сигналов и финансовом моделировании, где данные естественно группируются вокруг нескольких отдельных центроидов.
✨Суть метода
Каждый компонент смеси — это обычный многомерный гауссиан со своими параметрами:
🔹 Вектор средних значений — центр кластера
🔹 Ковариационная матрица — отображается фигурой формы «колокола»
🔹 Вес компонента — его вклад в общую смесь
✨Что сделано в приложенном проекте
1⃣ Создана двухкомпонентная смесь для двумерных данных:
Первый компонент: центр в точке (1, 2), вытянутая форма
Второй компонент: центр в точке (-3, -5), форма окружности
Оба компонента равновероятны
2⃣ Построен объект модели в Engee с помощью MixtureModel из пакета Distributions:
using Distributions
mu = [[1.0, 2.0], [-3.0, -5.0]]
sigma = [[2.0 0.0; 0.0 0.5], [1.0 0.0; 0.0 1.0]]
p = [0.5, 0.5]
gm = MixtureModel([MvNormal(μ, Σ) for (μ, Σ) in zip(mu, sigma)], p)
3⃣ Визуализирована функция плотности вероятности и кумулятивная функция распределения с помощью интерактивной библиотеки plotly.
✨Результаты моделирования
Что показывает модель:
✔ Две чёткие пика в точках центров компонентов
✔ Разная форма кластеров: эллиптическая и сферическая
✔ Плавный переход между компонентами
✔ Полная вероятностная модель — можно считать вероятность для любой точки
1 минута
20 января