В предыдущей части мы нашли моду = 2 (Карамель) и медиану = 2 (Карамель) для 50 посетителей кофейни. Теперь идём глубже. Напомним, что
Отсортированную выборку мы назвали переменной opros, элементы которой описали в порядке возрастания:
Шаг 5. Выборочное среднее
Это сумма всех значений, делённая на количество наблюдений. Оно показывает центр всего распределения данных.
В нашем случае вместо того чтобы складывать 50 чисел по одному, используем частоты (13 однёрок + 24 двойки + и т.д.):
Среднее получилось дробным числом и находится между ванилью (1) и лесным орехом (3), оч близко к карамели (2). Целого «сиропа» с таким кодом не существует, но среднее показывает общую направленность: аудитория тяготеет к лёгким, сладким вкусам.
ВАЖНО: среднее чувствительно к выбросам. Если бы несколько гостей выбрали «экзотику» с высоким кодом, среднее сразу бы выросло — даже если большинство по-прежнему хочет карамель. Именно поэтому среднее всегда смотрят вместе с модой и медианой.
Шаг 6. Квартили
Квартили делят упорядоченную выборку на 4 равные части по 25% элементов каждая. Это позволяет понять, как распределены предпочтения: на сколько велик их разброс, на сколько близко к среднему предпочтению они находятся?
Первым квартилем будет такое число Q1, ниже которого находятся 25% предпочтений, которые указали пользователи в нашем списке opros. Найдем сначала его номер
Однако, мы понимаем, что нет предпочтения пользователя под номером 12.75. Номер 12.75 означает, что нужно взять значение 12го элемента opros[12] и сложить к нему 0.75 расстояния от 12го до 13го opros[13]. B opros[12] и opros[13] оба равны 1 (код ванили), поэтому
Вторым квартилем будет такое число Q2, ниже которого находятся 50% предпочтений, которые указали пользователи в нашем списке opros. Найдем сначала его номер
Аналогично уточним позицию: номер 25.5 означает, что нужно взять значение 25го элемента opros[25] и сложить к нему 0.5 расстояния от 25го до 26го элемента opros[26]. Нам вновь повезло! И opros[25] и opros[26] оба равны 2 (код карамели), поэтому
И, наконец, третьим квартилем будет такое число Q3, ниже которого находятся 75% предпочтений, которые указали пользователи в нашем списке opros. Найдем сначала его номер
Аналогично уточним позицию: номер 38.25 означает, что нужно взять значение 38го элемента opros[38] и сложить к нему 0.25 расстояния от 38го до 39го элемента opros[39]. И тут нам повезло! И opros[38] и opros[39] оба равны 3 (код лесного ореха), поэтому
И так, строго, но лаконично подведем итоги:
- Ваниль выбирают 25% пользователей;
- Если же взять 50% пользователей, то среди предпочтений, помимо ванили, уже встречается и карамель;
- Если взять 75% пользователей, то к их предпочтениям добавляется и лесной орех;
- Оставшиеся выбирают между кокосом и мятой.
Шаг 7. Децили
Они делят упорядоченную выборку на 10 равных частей по 10% элементов. Они точнее квартилей — показывают, на каком «уровне шкалы» находится каждая десятая часть аудитории. Напомним, что здесь надо сначала найти номер дециля:
, а только потом само pk-тое предпочтение пользователя opros[pk] под этим номером. Приведем все ответы сразу в готовой таблице. Уточнение позиций на этот раз предлагаем провести самостоятельно!
- D1–D2 = 1: нижние 20% аудитории поклонники ванили;
- D3–D7 = 2: с 20-го по 70-й процент — это зона карамели. Карамель «владеет» серединой распределения;
- D8 = 3: 70–80% интересуются вкусом лесного ореха;
- D9 = 4: и лишь 10% доходит до кокоса и мяты.
Шаг 8. Перцентили
Это уже обобщение квартилей и децилей. Перцентиль показывает, ниже какого значения находится заданная доля данных. Он, скажем так, более точнее говорит о распределении. Например, P90 = 4 означает: 90% посетителей предпочитают сироп с кодом не выше 4 (кокос).
- Квартили — это частный случай перцентилей: P25, P50, P75;
- Децили — это тоже перцентили: P10, P20, ..., P90.
Напомним аналогичную для квартилей и децилей формулу:
Ключевые перцентили для кофейни
Для порядку рассчитаем P74, которого нет в таблице. Сначала номер:
Теперь уточним позицию: номер 37.74 означает, что нужно взять значение 37го элемента opros[37] и сложить к нему 0.74 расстояния от 37го до 38го элемента opros[38]. И теперь ситуация несколько иная! Элемент opros[37]=2, а вот элемент opros[38]=3, поэтому
Вывод: 74% посетителей выбирают сироп, не доходящий до лесного ореха — все 74% предпочтений ближе к карамели.
Бизнес-вывод для кофейни
1. Карамель — безусловный лидер.
Мода, медиана, D3–D7 — всё указывает на карамель. 24 из 50 гостей (48%) выбрали именно её. Карамельный сироп должен быть в наличии всегда и с запасом.
2. Ваниль — второй по значимости вкус.
13 гостей (26%) выбрали ваниль, и Q1 = 1 говорит: нижняя четверть аудитории — это «ванильная» аудитория. Ваниль — обязательная позиция в закупке.4
3. Лесной орех — для «продвинутых» гостей.
Q3 = 3 и D8 = 3: лесной орех начинается с 70-го перцентиля. Это сироп для тех, кто хочет что-то чуть сложнее карамели. Держать нужно, но в меньшем объёме — 7 гостей из 50 (14%).
4. Кокос и Мята — нишевые позиции.
D9 = 4: топ-10% аудитории. Их суммарная доля — всего 12% (6 человек). Эти сиропы придают меню разнообразие, но закупать их стоит малыми партиями.
Среднее (2.18), квартили и перцентили лишь подтверждают: карамель и ваниль вместе закрывают 74% спроса — именно они должны быть в приоритете при формировании заказа.