Прокачаем знание методов получения ключевых статистик средствами Pandas. В последующем на их базе как на строительных блоках возводится здание для более основательного анализа.
В демонстрационных целях будем использовать датасет о цветках Ириса, который получим с помощью библиотеки Scikit-learn:
Среднее, стандартное отклонение, дисперсия
Данные величины выводятся методами mean, std и var библиотеки Pandas:
При этом число степеней свободы для подсчета стандартного отклонения и дисперсии регулируется параметром ddof.
Квантили
Квантиль заданного уровня - это величина, которая подбирается таким образом, чтобы доля членов последовательности в выборке, которая меньше ее не превышала этот уровень. Квантиль можно получить методом quantile:
Разбиение по интервалам
Можно осуществить функцией cut, которой в качестве параметра помимо Series из значений передается bins - либо список границ полуинтервалов либо целое, определяющее равные по протяженности диапазоны, на которые будет поделена область значений:
Другим способом разбиения является использование функции qcut, которая работает на уровне квантилей:
Выше показаны два примера, в которых функция получает количество квантилей (выбирает так, чтобы в каждом полуинтервале было одинаковое количество значений) и их список, определяющий границы полуинтервалов.
Корреляция
Коэффициент корреляции показывает линейную связь между переменными (подробнее писал здесь). Для числовых переменных датафрейма они выводятся с помощью метода corr: