611 подписчиков

Статистические примитивы с Python

27 сентября 202127 сен 2021

113

1 мин

Прокачаем знание методов получения ключевых статистик средствами Pandas. В последующем на их базе как на строительных блоках возводится здание для более основательного анализа. В демонстрационных целях будем использовать датасет о цветках Ириса, который получим с помощью библиотеки Scikit-learn: Среднее, стандартное отклонение, дисперсия Данные величины выводятся методами mean, std и var библиотеки Pandas: При этом число степеней свободы для подсчета стандартного отклонения и дисперсии регулируется параметром ddof. Квантили Квантиль заданного уровня - это величина, которая подбирается таким образом, чтобы доля членов последовательности в выборке, которая меньше ее не превышала этот уровень. Квантиль можно получить методом quantile: Разбиение по интервалам Можно осуществить функцией cut, которой в качестве параметра помимо Series из значений передается bins - либо список границ полуинтервалов либо целое, определяющее равные по протяженности диапазоны, на которые будет поделена область з

Оглавление

Среднее, стандартное отклонение, дисперсия
Квантили
Разбиение по интервалам

Прокачаем знание методов получения ключевых статистик средствами Pandas. В последующем на их базе как на строительных блоках возводится здание для более основательного анализа.

В демонстрационных целях будем использовать датасет о цветках Ириса, который получим с помощью библиотеки Scikit-learn:

Среднее, стандартное отклонение, дисперсия

Данные величины выводятся методами mean, std и var библиотеки Pandas:

При этом число степеней свободы для подсчета стандартного отклонения и дисперсии регулируется параметром ddof.

Квантили

Квантиль заданного уровня - это величина, которая подбирается таким образом, чтобы доля членов последовательности в выборке, которая меньше ее не превышала этот уровень. Квантиль можно получить методом quantile:

Разбиение по интервалам

Можно осуществить функцией cut, которой в качестве параметра помимо Series из значений передается bins - либо список границ полуинтервалов либо целое, определяющее равные по протяженности диапазоны, на которые будет поделена область значений:

Другим способом разбиения является использование функции qcut, которая работает на уровне квантилей:

Выше показаны два примера, в которых функция получает количество квантилей (выбирает так, чтобы в каждом полуинтервале было одинаковое количество значений) и их список, определяющий границы полуинтервалов.

Корреляция

Коэффициент корреляции показывает линейную связь между переменными (подробнее писал здесь). Для числовых переменных датафрейма они выводятся с помощью метода corr: