Найти тему
Властелин машин

Типичная ошибка построения гистограммы для непрерывных величин

Использование гистограммы для визуализации распределения данных следует производить с осторожностью. Так, выбор границ интервалов для непрерывной величины может сильно повлиять на ее внешний вид. Рассмотрим серию с данными из нормального распределения:

Теперь зададим разные границы и получим разные гистограммы:

-2

-3

Это обусловлено тем, что количество попавших в отрезок точек определяется его высотой вне зависимости от ширины. Из-за этого на первом графике создается впечатление, что большинство точек сосредоточено в левом и правом отрезке, хотя это не так. Их суммарный процент - 35%:

-4

Чтобы составить более объективное представление о распределении непрерывной величины, воспользуйтесь графиком плотности распределения, где частота точек в определенном интервале определяется его площадью. Это можно сделать, например, так:

-5
-6