Рассмотрим, как использовать технику бутстрепа для вычисления доверительных интервалов некой величины. Допустим, что вы располагаете не очень большой выборкой данных. Предполагая, что имеются похожие объекты с аналогичными величинами, вы можете сэмлировать большой набор путем выбора с возвращением точек из уже имеющейся совокупности. Затем нужные метрики можно посчитать из этого нового набора. Сгенерируем игрушечные данные о зарплатах сотрудников некой организации: Сделаем выборку с возвращением из зарплат, используя метод sample с указанием размера в параметре n и replace=True (для активации режима с возвращением): Ниже указано, как задать границы 95% доверительного интервала и посчитать среднее, нижнюю и верхнюю квантили значений:
Оцениваем доверительные интервалы с помощью бутстрепа
31 июля 202231 июл 2022
135
~1 мин