1060 читали · 2 года назад
Агломеративная кластеризация и дендрограмма в Python
Рассмотрим один из способов распределения объектов по группам - агломеративную кластеризацию в Python. Она является разновидностью иерархического алгоритма и заключается в последовательном объединении точек в кластеры. При этом сначала каждый объект лежит в отдельной группе, после на каждом шаге самые близкие кластеры объединяются на основании выбранных метрик расстояния. В качестве дистанций между кластерами часто принимают: В качестве метрики расстояния между точками обычно используется евклидова мера (также поддерживается много других, например, корреляция, косинусное различие)...
2 дня назад
Анализ Текста на Python: Подробное Руководство
Привет! В этой статье мы разберем, как создать программу на Python, которая анализирует текстовый файл и выдает полезную статистику: количество слов, уникальных слов, среднюю длину предложений и многое другое. Готовы? Тогда начнем! Для начала нам понадобятся две библиотеки: collections и re. Первая библиотека предоставляет класс Counter, который удобно использовать для подсчета элементов, а вторая нужна для работы с регулярными выражениями. Сначала загрузим текстовый файл, который хотим проанализировать...