Наверное каждый, кто живет в Москве, с апреля хоть раз видел подобный график:
Данные на нем представлены верно, но он оставляет смутное ощущение, что с ним что-то не так. Давайте разбираться.
Этот график обновляется ежедневно, то есть его главная задача — информировать и наглядно показывать текущую ситуацию в контексте общей картины пандемии. Грубо говоря, мы должны легко понять, становится ли ситуация лучше или хуже по сравнению с тем, что было раньше. Насколько удобно нам это делать сейчас?
Большую часть картинки занимает изображение кумулятивного (нарастающего) количества выявленных и выздоровевших. В первые недели эпидемии это имело смысл, когда изменение каждого следующего столбика относительно предыдущего было достаточно значительным по сравнению с общим числом выявленных/выздоровевших. Вот так этот график выглядел 11 апреля:
Это самое начало эпидемии в Москве, и график хорошо передает пресловутый экспоненциальный характер роста, удвоение общего числа случаев происходит каждые 4-5 дней. Кроме того, за 2 недели изменение числа случаев достаточно значительное, чтобы это имело смысл. В какой-то момент кривая начала уплощаться и график стал менее показательным:
Сейчас же показывать график кумулятивного роста показателей смысла не имеет. В любой отдельный день он будет выглядеть визуально совершенно одинаково, так как в день прибавляется слишком мало случаев, чтобы существенно повлиять на суммарное количество.
Можно заметить, что график дает возможность сравнивать общее накопленное количество выявленных и выздоровевших. Примерно можно сказать, что их около половины. Никакой динамики этого процента (выздоровевших от выявленных) мы по этому график также увидеть не можем.
Таким образом, большую часть картинки занимает бесполезная иллюстрация. В этом смысле, основная к ней претензия, которую можно услышать — в неправильности и неудобности принципа раскрашивания не имеет существенного значения, так как сам график бесполезен. Но претензия эта справедлива. Зелено-красный градиент вроде бы имеет следующий смысл: для выявленных он призван изменением оттенка показывать, что «было лучше, а стало хуже», а для выздоровевших обратным направлением этой цветовой шкалы, что «было хуже, а стало лучше».
Здесь есть несколько проблем. Во-первых, это пример двойного кодирования — то есть цвет показывает то, что уже показывает длина столбика, а один параметр нет смысла кодировать дважды. Во-вторых, отдельный столбик не закрашен одним цветом, он закрашен градиентом, что вообще лишено смысла. И наконец, в-третьих, эти «хуже-лучше» каждый раз выбираются совершенно произвольно. То есть просто первый хронологически столбик для выявленных зеленый, а последний красный — и степень роста показателя на это никак не влияет. Аналогично и для выявленных. То есть на том графике, который был 2 недели назад, тотально красным был столбик, который сейчас станет тотально зеленым. ¯\_(ツ)_/¯
В раскрашивании столбиков цветом могла быть логика, если бы мы отталкивались от какого-то референтного показателя, кодируя, скажем, скорость роста. Например, если больше 15% к предыдущему дню, то это красный, если 5-14, то оранжевый, если меньше 5% — то зеленый. Хотя лучше всё-таки это показать отдельной линией, а не цветом.
Перейдем к нижнему графику:
У него неправильно сформулирован заголовок, и это вводит в заблуждение. Это НЕ динамика ПРИРОСТА выявленных случаев по сравнению с предыдущим днем, это просто динамика выявленных случаев по дням. Не прироста и не по сравнению с предыдущим днем. Динамика прироста по сравнению с предыдущим днем, например, 25-го августа по сравнению с 24-м: 681 – 625 = +56 случаев. А 23 августа по сравнению с 22-м — –76 случаев.
Окей, предположим, что сформулировано верно. Полезен ли этот график? В общем, да. Это именно то, что мы и хотим узнать в первую очередь, как меняется число выявленных в последние дни. Без нижнего графика нам бы пришлось высчитывать это самостоятельно по верхнему графику, отнимая значения предыдущего столбика от следующего. То есть нам однозначно нужен подобный график. Насколько оправдано то, что в нем обрезана шкала? На мой взгляд не очень оправдано. Да, это позволяет более точно видеть различия между днями, но в данном случае это не так важно, чем понимание, существенны ли эти изменения или нет. (Даже наоборот, это излишне преувеличивает характер изменений). А чтобы это понять, нам нужно видеть, как изменяются значения относительно количества выявленных за день.
Если мы построим график от нуля, то мы получим важную информацию:
Мы увидим, что число выявленных заражений практически не меняется.
(Сделаю ремарку, что Яндекс зря раскрашивает столбики здесь. Это тоже двойное кодирование, причем неудачное. Столбики 611 и 625 выглядят так, как будто очень сильно отличаются от соседних, а на самом деле разница меньше 10%).
И теперь, наконец, мы переходим к главной проблеме картинки от ОперШтаба. Дает ли она нам важную ежедневную информацию в удобной форме? Нет, большую часть пространства занимает бесполезный график кумулятивного роста, а действительно важный график уведен вниз и чрезмерно драматизирует минимальные изменения по количеству выявленных.
Число умерших при этом не показано вовсе, а это очень важный показатель, который интересует нас в первую очередь.
Кроме того, мы не видим и не понимаем контекста, в котором живут эти данные. Этот контекст может дать только изображение данных за бОльший промежуток времени.
Почти всё это адекватно сделано у того же Яндекса:
Я бы только явно обозначил линию нуля для графика с выявленными случаями/выздоровлениями, иначе сейчас выглядит так, как будет эта линия общая вместе со смертями, как-то так:
И наверное все же яснее дал понять, что верхних двух графиков разные размерности. То есть слева дал шкалу с метками.
А вот Новая Газета разбирался с так называемым «собянинским коридором», почему данные последний месяц меняются в таком узком диапазоне: https://novayagazeta.ru/articles/2020/08/22/86779-koronu-podrisovali
================================================
Напоминаю, что продолжается ПРЕДЗАКАЗ книги «Графики, которые убеждают всех», своеобразного учебника о том, как верно визуализировать данные и избегать тех ошибок, которые мы сегодня увидели.
Для жителей Москвы самовывоз бесплатный, в рознице книга будет стоить дороже: https://planeta.ru/campaigns/kniga_pro_grafiki
Александр Богачев, канал Чартомойка