Использование гистограммы для визуализации распределения данных следует производить с осторожностью. Так, выбор границ интервалов для непрерывной величины может сильно повлиять на ее внешний вид. Рассмотрим серию с данными из нормального распределения:
Теперь зададим разные границы и получим разные гистограммы:
Это обусловлено тем, что количество попавших в отрезок точек определяется его высотой вне зависимости от ширины. Из-за этого на первом графике создается впечатление, что большинство точек сосредоточено в левом и правом отрезке, хотя это не так. Их суммарный процент - 35%:
Чтобы составить более объективное представление о распределении непрерывной величины, воспользуйтесь графиком плотности распределения, где частота точек в определенном интервале определяется его площадью. Это можно сделать, например, так: