Пожалуй, самая популярная операция над данными — поиск среднего, одного числа, которое описывает весь датасет. Средняя цена товаров показывает, сколько примерно стоит каждый. И если у товаров другой марки среднее выше, то в целом они дороже. Просто и удобно.
Всех учили считать среднее арифметическое: складываем все значения в наборе и делим на их количество. Если у нас три товара стоимостью 1200, 1300 и 1700 рублей, среднее будет равно (1200 + 1300 + 1700) / 3 = 1400 рублей. Но среднее арифметическое — не единственная мера центральной тенденции (так называют числа, служащие для описания целого набора значений).
Второй по популярности показатель — медиана. Это значение среднего наблюдения, если их отсортировать. Для примера выше медиана будет равна 1300 — значение посередине между 1200 и 1700.
Что лучше? Однозначного ответа, как это обычно и бывает, нет. Зависит от задачи: какие у вас данные и что хотите показать. Из моего опыта — почти всегда лучше медиана. Её главное преимущество в устойчивости к выбросам — аномально большим или малым значениям.
Например, если бы самый дорогой товар стоил не 1700, а 17 000 рублей (кто-то опечалился, когда вносил в базу), медиана бы не изменилась. Чего не скажешь о среднем: (1200 + 1300 + 17 000) / 3 = 6500. Увы, в больших наборах данных такие ошибки и выбросы почти неизбежны.
Другой пример: если в большой в группе людей есть несколько сверхбогатых, средний доход не будет отражать состояние дел никого из представителей (для богачей будет занижен, для остальных — завышен). А медиана будет близка к уровню доходов большинства людей.
Главное преимущество среднего — его гораздо проще объяснить. Этот термин знаком всем, а медиана пугает научностью и в материале для массовой аудитории требует пояснений, которые никто не станет читать.
Ещё среднее бывает удобно, когда у нас мало наблюдений и учесть выбросы нам как раз важно. Например, если нас интересует средний доход членов семьи, в которой один человек зарабатывает гораздо больше других. Или если важна возможность восстановить сумму по среднему (по медиане суммарный доход семьи не посчитаешь, а среднее для этого достаточно умножить на число членов семьи). На самом деле в такой ситуации лучше вообще не искать меру центральной тенденции, а как раз оперировать суммарным показателем (доход семьи). Но это не всегда возможно, например, если нужно сравнить со справочным значением, которое выражено средним (средняя зарплата по стране по данным Росстата).
Так что выбирайте показатель под задачу. И не забывайте про медиану, она почти всегда лучше.