Найти в Дзене

Quantile в Машинном обучении простыми словами

Фото: @thmsvrbrggn
Фото: @thmsvrbrggn

Квантиль (иногда фрактиль) – граница деления Выборки (Sample) или Совокупности (Population) на равные по размеру смежные подгруппы. Это также относится к разделению распределения вероятностей на области равного размера:

Площади многоугольников, разделенные пунктирными проекциями, равны
Площади многоугольников, разделенные пунктирными проекциями, равны

Медиана – это тоже квантиль, которая расположена так, чтобы ровно половина данных (0,5) была левее ее. Она делит распределение на две равные области, поэтому ее еще называют 2-м квантилем.

Квартили также являются квантилями; они делят распределение на четыре равные части. Тоже верно и для процентилей, децилей и квинтилей, разделяющих распределение на 100, 10 и 5 равных частей соответственно.

Пример. Найдем 20% самых маленьких чисел в списке:

-3

Шаг 1. Упорядочим данные от наименьшего к наибольшему:

-4
-5

Шаг 2. Подсчитаем, сколько Наблюдений (Observation) в совокупности:

-6
-7

Шаг 3: Определим значение, отсекающее 20% значений от остальных, с помощью формулы:

-8

Размер квантили – это величина, характеризующая количество измерений, входящих в обозначенную часть совокупности. В нашем случае, это первые 20%, то есть 0,2.

-9

Дело за малым – отфильтруем список по условию "меньше 8,2":

-10
-11

Квантили в Машинном обучении

Помимо прочего, квантили используются в т.н. Квантильной регрессии (Quantile Regression) и делают ее оценки более устойчивыми к выбросам.

Ноутбук, не требующий дополнительной настройки на момент написания статьи, можно скачать здесь.