Найти тему

Как нас обманывают... данные. Часть 2. Внимание на количество

Данные не говорят сами за себя - центральную роль здесь играет наш опыт и наше суждение.

Д. Шпигельхалтер

Продолжаем анализировать данные по шоколадным батончикам.

Описание данных можно посмотреть в первой части.

В этот раз попробуем оценить влияние расположения фабрики на рейтинг.

Так как страна - это не числовая переменная, то сразу отпадают ряд приемов для проверки гипотез. Например всеми излюбленный df.corr() от pandas (проверка на корреляционные связи)

Но можно же построить график средних оценок по странам....

Но вот же. Задача решена!!! Берем график и несем менеджеру/закупаем пару камазов батончиков из топ - 5 рейтинга и не паримся.

-2

В чем же ошибка такого подхода? Ошибка в отсутствии данных по количеству. Существует большая вероятность того, что кто то чисто случайно оставил 5 отзывов с рейтингом выше среднего. Но это не значит, что следующие, например 100 человек, сделают тоже самое.

Взглянем на распределение числа отзывов по странам.

Топ - 5 из предыдущего графика скатились далеко вправо
Топ - 5 из предыдущего графика скатились далеко вправо

Вывод: при анализе и чтение аналитических данных обращать внимание не только на распределение оценок, но и на количество данных.

В дополнение рабочий метод для оценки данных.

Для решения этой проблемы есть метод под названием Bayesian average (Байесовское среднее). Суть метода - учет в расчетах новых оценок уже существующие данные. Вычислим скорректированный рейтинг на основе Bayesian average. И посчитаем изменение рейтинга.

Итак Bayesian average. X = (Cx + Nz)/(C+N)

где С - минимальная выборка для оценки среднего. То количество данных на основе которых мы можем достоверно посчитать текущее среднее. х - это среднее по существующей выборке. N - количество новых данных z - среднее новых данных.

Минимальная выборка выбирается аналитическим путем. Обычно это то значение, после которого разброс оценок резко снижается.

зависимость средней оценки от числа отзывов
зависимость средней оценки от числа отзывов

На графике очень хорошо видно как нестабильны оценки при количестве отзывов менее 25.

После применение преобразования получаем следующую картину

-5

-6

На самом деле нет никакой взаимосвязи между рейтингом и страной производителем.

Для самопроверки проверим себя инструментом PHIK - корреляцией.

-7

Коэффициент связи между рейтингом и расположением компании равен 0.

Значит наши выводы оказались верными и метод Bayesian average действительно рабочий. Более подробно об использовании данного метода можно почитать здесь.