В этой статье расскажу о ключевых инструментах для подсчета гистограмм и их визуализации в Python. В этом нам помогут библиотеки NumPy, Pandas, Matplotlib и Seaborn. В качестве демонстрационных данных будем использовать опрос пользователей сайт Kaggle 2017 года (2017 Kaggle ML & DS Survey, файл multipleChoiceResponses.csv). Получение численных значений гистрограммы В этом нам поможет функция histogram из библиотеки NumPy. В число ее основных параметров входит bins - границы для интервалов деления...
Рассмотрим, как быстро и красиво построить распределения значений для различных признаков таблицы данных. В качестве примера будем использовать датасет о цветках Ириса, который получим с помощью библиотеки Scikit-learn: Как можно заметить, в демонстрационных целях мы добавили один индикаторный столбец - 'petal_length>4'. Визуализацию будем проводить с помощью библиотеки Seaborn, в которой для категориальных и числовых столбцов удобно использовать два разных метода countplot и histplot (читать подробнее)...