Квантиль (иногда фрактиль) – граница деления Выборки (Sample) или Совокупности (Population) на равные по размеру смежные подгруппы. Это также относится к разделению распределения вероятностей на области равного размера:
Медиана – это тоже квантиль, которая расположена так, чтобы ровно половина данных (0,5) была левее ее. Она делит распределение на две равные области, поэтому ее еще называют 2-м квантилем.
Квартили также являются квантилями; они делят распределение на четыре равные части. Тоже верно и для процентилей, децилей и квинтилей, разделяющих распределение на 100, 10 и 5 равных частей соответственно.
Пример. Найдем 20% самых маленьких чисел в списке:
Шаг 1. Упорядочим данные от наименьшего к наибольшему:
Шаг 2. Подсчитаем, сколько Наблюдений (Observation) в совокупности:
Шаг 3: Определим значение, отсекающее 20% значений от остальных, с помощью формулы:
Размер квантили – это величина, характеризующая количество измерений, входящих в обозначенную часть совокупности. В нашем случае, это первые 20%, то есть 0,2.
Дело за малым – отфильтруем список по условию "меньше 8,2":
Квантили в Машинном обучении
Помимо прочего, квантили используются в т.н. Квантильной регрессии (Quantile Regression) и делают ее оценки более устойчивыми к выбросам.
Ноутбук, не требующий дополнительной настройки на момент написания статьи, можно скачать здесь.