Найти тему
Алексей Колоколов

Графики которые могут обмануть

Краткое содержание и интересные моменты статьи от видного деятеля сферы визуализации данных и автора нескольких книг - Alberto Cairo. Эта статья на простом примере предупреждает читателей и создателей диаграмм о возможных недопониманиях, которые могут быть вызваны диаграммой, если не быть бдительным.

«Картинка стоит тысячи слов»

Это высказывание заставляет нас поверить, что мы можем правильно интерпретировать диаграмму. Рассмотрим пример из новой книги Альберто: “How Charts Lie: Getting Smarter about Visual Information”.

Скажите, что вы страдаете ожирением, и вы устали от семьи, друзей и вашего доктора, которые говорят вам, что ожирение может увеличить риск развития диабета, сердечных заболеваний и даже рака - и все это может сократить вашу жизнь.

Однажды вы видите этот график и внезапно вы чувствуете себя лучше, потому что он показывает, что, как правило, чем больше людей страдает ожирением (правая часть диаграммы), тем выше ожидаемая продолжительность жизни (верхняя часть диаграммы). Поэтому, как вам кажется, тучные люди должны жить дольше. Ведь корреляция (красная линия) довольно сильна!

Сам график не является неправильным. Но это не значит, что чем больше людей с ожирением, тем дольше они живут.

Тут виноваты две ошибки:

  • Избыточное агрегирование может скрыть важные паттерны в данных.
  • Корреляция не есть причинно следственная связь.

Подробнее:

Как только мы сгруппируем страны по уровню жизни, то увидим, что положительная корреляция - только в странах с доходом ниже среднего. В богатых странах все совершенно наоборот! Что крайне важное уточнения для жителя богатой страны.

-2

Второй момент, который не учтен в рассуждениях читателя: на эту связь могут влиять многие другие факторы. Рассмотрим разные штаты Америки.

-3

И увидим, что физические упражнения и доступ к медицинской помощи также связаны с ожидаемой продолжительностью жизни. Как и доход. И что же тут причина, а что следствие?..

-4

Как правильно читать графики?

  • Постарайтесь увидеть не только то, что показывает график, но и то, что он может не показывать.
  • Не спешите с выводами, особенно если график, кажется, подтверждает то, во что вы уже верите.
  • Спросите себя, правильно ли вы озвучиваете содержание диаграммы. Подумайте, соответствуют ли данные уровню, необходимому для того, чтобы сделать необходимые выводы. Например, если вы хотите узнать о странах, обратитесь к данным на уровне страны, но если вы хотите узнать о своих собственных рисках для здоровья, найдите данные о людях.
  • И всегда помните, что в диаграмме или среди любых данных корреляция не совпадает с причинностью.