Найти в Дзене
Властелин машин

Статистические примитивы с Python

Оглавление

Прокачаем знание методов получения ключевых статистик средствами Pandas. В последующем на их базе как на строительных блоках возводится здание для более основательного анализа.

В демонстрационных целях будем использовать датасет о цветках Ириса, который получим с помощью библиотеки Scikit-learn:

Среднее, стандартное отклонение, дисперсия

Данные величины выводятся методами mean, std и var библиотеки Pandas:

-2

При этом число степеней свободы для подсчета стандартного отклонения и дисперсии регулируется параметром ddof.

Квантили

Квантиль заданного уровня - это величина, которая подбирается таким образом, чтобы доля членов последовательности в выборке, которая меньше ее не превышала этот уровень. Квантиль можно получить методом quantile:

-3

Разбиение по интервалам

Можно осуществить функцией cut, которой в качестве параметра помимо Series из значений передается bins - либо список границ полуинтервалов либо целое, определяющее равные по протяженности диапазоны, на которые будет поделена область значений:

-4

Другим способом разбиения является использование функции qcut, которая работает на уровне квантилей:

-5

Выше показаны два примера, в которых функция получает количество квантилей (выбирает так, чтобы в каждом полуинтервале было одинаковое количество значений) и их список, определяющий границы полуинтервалов.

Корреляция

Коэффициент корреляции показывает линейную связь между переменными (подробнее писал здесь). Для числовых переменных датафрейма они выводятся с помощью метода corr:

-6

-7