Работая с большими данными, мы хотим получить ответы на многие вопросы. Это сделать не так уж легко, как может показаться. Существует много подводных камней, на которые часто натыкается начинающий аналитик. И первое, что приходит в голову — анализ эффективности в целом. Если все данные разные, как понять их эффективность? Тут мне вспоминается анекдот про среднюю температуру в больнице. Кто не слышал, анекдот состоит всего из одного предложения: «Средняя температура в больнице — 36,6». А прикол в том, что в больнице лежат пациенты с температурой. Просто если посчитать морг, то низкая температура мертвых скомпенсирует повышенную температуру больных. Отсюда и выстраивается ложное представление. Что мы имеем? Получается, знать среднее значение недостаточно? Действительно, средняя температура 36,6 может быть как в выборке от 35 до 38, так и в выборке от 25 до 40. Человек воспринимает среднее значение как нечто такое, от чего нельзя сильно отклоняться. И если я вам скажу например, что у кажд