Лучше всего начинать планировать научную работу с конца. А именно с графиков и диаграмм. Они наглядны и позволяют просто и быстро осмыслить основные результаты исследования.
Большинство из них вы уже видели. Осталось разобраться, где и какой уместно применить.
График или диаграмма
— достаточно близкие понятия и в обыденной речи нередко употребляются как синонимы. Тем более, что элементы каждого нередко можно видеть на одном изображении. График даёт представление о процессах изменения величин и обычно представляет собой линии. Также график может выглядеть как точки, связанные линиями, или даже как отдельные точки. Диаграмма же даёт представление о соотношении нескольких величин или нескольких значений одной величины. Поскольку разбор терминов не суть этой статьи, давайте сразу перейдём к нюансам их построения.
Диаграммы для межгруппового сравнения
Для того, чтобы показать различия по исследуемому числовому параметру между группами, наиболее часто используют 2 типа диаграмм: столбчатую или ящичковую диаграмму типа «ящик с усами». В особых случаях используют точечные графики и скрипичные диаграммы Тьюки.
У каждого вида диаграммы свои достоинства и недостатки, которые обсудим далее.
Столбчатые диаграммы
традиционно используют для отображения данных с распределением близким к нормальному. С помощью них по умолчанию принято показывать арифметическое среднее (М) и стандартное отклонение (SD). Главное преимущество: это самый лёгкий для понимания и распространённый тип диаграмм. Более подробно о том, как и когда их следует использовать, читайте в отдельной статье про столбчатые диаграммы.
Один из главных недостатков столбчатых диаграмм: при ненормальным распределении часто возникает проблема связанная с пересечением усами нулевой отметки. Эта ошибка встречается при анализе строго положительных чисел, большинство из которых может иметь значения близкие к нулю (например, количество удалённых зубов или число заболевших). Так, при вычислении стандартного отклонения — которое симметрично — его диапазон захватывает отрицательные значения. Но параметр не может быть отрицательным! Такой проблемы нет у других типов диаграмм, описанных ниже.
Диаграмму ящик с усами
обычно используют для отображения данных с распределением отличным от нормального. На них принято изображать 3 вещи: минимальные и максимальные значения в виде усов, первый и третий квартили (Q1; Q3) в виде границ ящика и медиану в виде линии внутри ящика. И более подробно о том, как и когда её следует использовать читайте в отдельной статье про столбчатые диаграммы. Она не подходит для вариантов многогорбого или U- образного распределения, где статистическая вероятность не связана с медианой.
Скрипичная диаграмма Тьюки
по сути представляет собой гистограмму распределения (её "отзеркаленную" версию). Скрипичную диаграмму предпочтительно использовать на этапах предварительного и разведочного анализа, когда структуру данных и закономерности вы хотите лучше оценить глазом. Она даёт более точное представление о распределении, чем ящичковые и столбчатые диаграммы. Многие пособия рекомендуют её для использования по умолчанию. Единственное ограничение: скрипичную диаграмму не стоит использовать для малых выборок. И ещё одно: не каждая программа умеет её строить, что также ограничивает применение скрипичных диаграмм.
Точечная диаграмма
изображает каждое значение отдельно. Также на ней нередко дополнительно обозначают арифметическое среднее или медиану в виде перекладины. Главным достоинством точечной диаграммы является визуализация каждого конкретного значения, что наилучшим образом подходит для предварительного и разведочного анализа. Она не годится для финальной визуализации данных с большими выборками, поскольку роение точек выглядит не очень аккуратным и не даёт простой и понятной информации о статистической вероятности.
Диаграммы для оценки части целого
Они отображают накопление номинального признака в выборке. Подходят для раздела "Материалы и методы" для иллюстрации пропорций размеров групп исследования. В разделе "Результаты" их можно использовать тогда, когда по другому данные никак не получить: например, в ретроспективных клинических исследованиях, когда исследователь не мог повлиять на методику сбора данных (анализ карт, отчётов страховых и пр.) или заведомо был вынужден оценивать количество не ранжируемых номинальных величин (пол, цвет глаз, национальность).
"Пирог", "пончик" или часть круга
наиболее часто встречающаяся тип диаграмм. И, что самое интересное, вам следует стараться никогда её не использовать! Во-первых, потому что угловые размеры воспринимаются хуже, чем линейные (рис. выше). Во-вторых, сам факт того, что вы встретили её где-нибудь в результатах говорит о том, что исследователь скорее всего наломал дров и собрал не те данные или неправильно их проанализировал. Она лишь констатирует факт соотношения номинальных признаков в конкретной выборке и не позволяет дать прогноз.
«Часть столбца» или диаграмма накопления
является эквивалентом диаграммы «пирог», но имеет ряд преимуществ. Во-первых, она имеет более компактный размер. Во-вторых, такого рода диаграммы легко можно сравнивать между собой и располагать на одном графике (рис. выше).
***
Более подробно о диаграммах для оценки частей целого, как и когда их следует (или не следует) использовать написано в отдельной статье.
XY зависимости
Точечный график
используют для изображения числовых величин по осям (X) и (Y) для иллюстрации корреляций. То есть с его помощью показывают, как изменяется та или иная величина (Y) в зависимости от роста другой (X). График простой и понятный. На него часто наносят числа с результатами корреляционного анализа, которые показывают степень наклона (r, τ [тау] или ρ [ро]) и степень прижатия точек (p [пэ]) к линии тренда.
Что такое тренд и линия тренда - это отдельная темя для дискуссии и не для этой статьи. Но, думаю, что любому понятно о чём идёт речь.
Более подробно о корреляциях и их графиках читайте здесь.
График с погрешностями
используют для визуализации динамики изменений. По сути график с погрешностями является альтернативой для столбчатой диаграммы: на нём также по умолчанию изображают среднее и стандартное отклонение. При этом предыдущие значения для каждой отдельной группы объединены линиями с последующими. Подходит для связанных выборок (изменение одних и тех же объектов наблюдения).
Если временных точек очень много, то вместо усов зону погрешностей можно заполнять полупрозрачной заливкой или контурировать пунктирной линией. Если временных точек, напротив, мало (менее 3), то можно использовать обычную столбчатую диаграмму.
Опубликовано 01.12.2023; UPD(3): 08.02.2024
***
Ещё больше статей на канале!
Не стесняйтесь комментировать и задавать вопросы. Ставьте лайк и подписывайтесь!
Жду предложений по новым статьям!
© Васильев А.В.
Копирование и распространение без согласия автора не допускается.