Этот вид диаграмм является самым популярным. Их можно встретить в подавляющем большинстве научных работ. Причина такой популярности связана с простотой их построения и восприятия. Кроме того, большая часть программ для работы с таблицами в качестве безальтернативного стандарта предлагали к использованию именно этот тип диаграмм. Речь идёт о таких популярных редакторах таблиц, как MS Excel (до версии 2016), OpenOffice Culc и iWork Numbers.
Почему столбчатую диаграмму следует изображать при распределении, близком к нормальному?
Ответ на этот вопрос требует представления о том, какое распределение является нормальным. Проще говоря, нормальное распределение – это симметричное распределение значений, гистограмма которого похожа на колокол (рис ниже, а).
Представьте, что вам потребовалось определить значения частоты пульса под действием изучаемого препарата. Для этого у пациентов был произведён замер частоты пульса. Далее полученные значения были «уложены» друг на друга на графике (рис выше, а). Как видите, если построить кривую, приближённо описывающую наружный контур, она будет напоминать симметричный колокол, что говорит о том, что распределение является нормальным (рис выше, б).
Для описания разбросов значений, близких к нормальному распределению, наиболее часто используют арифметическое среднее (обозначается μ или М) и стандартное отклонение (SD) и записывают в виде (M ± SD).
Вычисление арифметического среднего не вызывает проблем у человека, окончившего среднюю школу. Но вот с тем, что такое стандартное отклонение, следует разобраться.
Взгляните на «колокол» нормального распределения ещё раз (рис выше, б). Теперь мысленно сложите его пополам относительно арифметического среднего (М) (рис выше, в). Затем «прислоните» место сгиба к началу координат и сгруппируйте получившиеся значения одно над другим (рис выше, г). Дело осталось за малым: найдите арифметическое среднее из получившихся значений или поделите объём «колокола» пополам — это и будет стандартное отклонение (SD). На графике стандартное отклонение показывают в виде симметричных «усов», а арифметическое среднее — в виде высоты столбца (рис выше, г). В ряде случаев «усы» изображают только в одну сторону, потому что стандартное отклонение — симметричная величина относительно арифметического среднего.
Почему столбчатая диаграмма не подходит для ненормального распределения?
Как можно догадаться, ненормальное распределение — это любое другое распределение, гистограмма которого не напоминает симметричный колокол. Ниже показаны варианты его гистограмм в сравнении с нормальным распределением (рис ниже).
Приведём пример того, зачем нужно знать о ненормальном распределении. Представьте себе, что вы оцениваете количество удалённых зубов у старшеклассников. Подавляющее большинство подростков в возрасте 16 лет не будут иметь удалённых зубов. Однако отдельные школьники будут иметь удалённые зубы вследствие травмы или воспаления. Если при этом использовать арифметическое среднее (М) и стандартное отклонение (SD), как и для распределения, близкого к нормальному, может оказаться, что количество удалённых зубов у 16-летних составит, например, (0,8 ± 1,5). При таком подходе стандартное отклонение будет симметрично отклоняться от арифметического среднего и пересекать нулевую отметку (рис ниже). Налицо две логические неурядицы. Во-первых, количество удалённых зубов не может быть отрицательным числом! Во-вторых, 0,8 удалённых зубов быть не может: они могут измеряться только в целых числах.
Как быть в такой ситуации и какой график использовать? Об этом поговорим на примере разбора гистограммы ненормального распределения, описывающего подобную ситуацию (см. рис выше с гистограммами распределений, г). Взгляните на арифметическое среднее. Оно явно удалено от наиболее часто встречаемого значения. Следовательно, использование арифметического среднего не определяет наибольшую вероятность нового события. Из описанного ранее примера понятно, что если бы вы взяли следующего школьника, то у него скорее всего не было бы удалённых зубов вовсе. Однако арифметическое среднее говорит о том, что их было бы где-то 0,8 (или 1 при округлении до целого).
Как вы могли понять из предыдущих разделов, ни арифметическое среднее, ни стандартное отклонение, изображаемые на столбчатых диаграммах, не подходят для описания ненормального распределения. Тогда какими величинами в подобных ситуациях стоит оперировать? Обычно, лучше всего для описания ненормального распределения подходят медиана (Ме), квартили (Q), минимум и максимум (min, max), которые изображают с помощью диаграммы "ящик с усами". Подробнее об этом здесь.
Пишите в комментариях, если хотите чтобы я поделился чем-нибудь ещё.
© Васильев А.В.
Копирование и распространение без согласия автора не допускается.