sfd
Агломеративная кластеризация и дендрограмма в Python
Рассмотрим один из способов распределения объектов по группам - агломеративную кластеризацию в Python. Она является разновидностью иерархического алгоритма и заключается в последовательном объединении точек в кластеры. При этом сначала каждый объект лежит в отдельной группе, после на каждом шаге самые близкие кластеры объединяются на основании выбранных метрик расстояния. В качестве дистанций между кластерами часто принимают: В качестве метрики расстояния между точками обычно используется евклидова мера (также поддерживается много других, например, корреляция, косинусное различие)...
Простое руководство по визуализации данных в машинном обучении
Источник: Nuances of Programming Важным шагом в разработке моделей машинного обучения является оценка их эффективности. Выбор метрик для этих целей обычно зависит от типа проблемы, которую решает МО. Однако простое рассмотрение одного или двух чисел в отдельности не всегда позволяет принять правильное решение при подборе модели. Например, одна метрика ошибок не даст никакой информации о распределении ошибок. Она также не позволит ответить на вопрос, ошибается ли модель по-крупному небольшое количество раз или же она допускает множество более мелких ошибок...