Данные не говорят сами за себя - центральную роль здесь играет наш опыт и наше суждение. Д. Шпигельхалтер Продолжаем анализировать данные по шоколадным батончикам. Описание данных можно посмотреть в первой части. В этот раз попробуем оценить влияние расположения фабрики на рейтинг. Так как страна - это не числовая переменная, то сразу отпадают ряд приемов для проверки гипотез. Например всеми излюбленный df.corr() от pandas (проверка на корреляционные связи) Но можно же построить график средних оценок по странам.... Но вот же. Задача решена!!! Берем график и несем менеджеру/закупаем пару камазов батончиков из топ - 5 рейтинга и не паримся. В чем же ошибка такого подхода? Ошибка в отсутствии данных по количеству. Существует большая вероятность того, что кто то чисто случайно оставил 5 отзывов с рейтингом выше среднего. Но это не значит, что следующие, например 100 человек, сделают тоже самое. Взглянем на распределение числа отзывов по странам. Вывод: при анализе и чтение аналитических д
Как нас обманывают... данные. Часть 2. Внимание на количество
17 июля 202217 июл 2022
9
1 мин