Найти в Дзене
Клуб Рационалистов

Почему сумма процентов часто получается больше 100

В современном мире популярность приобрела красивая инфографика, наглядно визуализирующая те или иные данные. Её можно встретить в научных статьях и бизнес-отчётах, в рекламных материалах и в популярной литературе, в различных блогах, газетах и журналах, на форумах и в соцсетях. Вот, например, наглядное и весьма увлекательное схематическое изображение распределения воды на планете Земля. Из этого рисунка мы можем узнать, что 96,5% всей воды находится в океанах, ещё 1% — подземная солёная вода. Пресной воды на планете всего 2,5%, из неё 69% — в снежных и ледяных шапках, а 30% — под землёй. Люди используют всего 0,03% всей пресной воды, причём 73% этого количества — в сельском хозяйстве. Красиво, увлекательно, заставляет задуматься. Однако среди комментариев к подобного рода инфографике часто встречаются люди, которые не только эстетически наслаждаются подобными данными, но и спешат сложить приводимые проценты, обнаруживая при этом, что их сумма не равна 100%. Посмотрите, например, на рас
Оглавление

В современном мире популярность приобрела красивая инфографика, наглядно визуализирующая те или иные данные. Её можно встретить в научных статьях и бизнес-отчётах, в рекламных материалах и в популярной литературе, в различных блогах, газетах и журналах, на форумах и в соцсетях.

Вот, например, наглядное и весьма увлекательное схематическое изображение распределения воды на планете Земля.

Water World distribution от сайта Information is beautiful
Water World distribution от сайта Information is beautiful

Из этого рисунка мы можем узнать, что 96,5% всей воды находится в океанах, ещё 1% — подземная солёная вода. Пресной воды на планете всего 2,5%, из неё 69% — в снежных и ледяных шапках, а 30% — под землёй. Люди используют всего 0,03% всей пресной воды, причём 73% этого количества — в сельском хозяйстве.

Красиво, увлекательно, заставляет задуматься. Однако среди комментариев к подобного рода инфографике часто встречаются люди, которые не только эстетически наслаждаются подобными данными, но и спешат сложить приводимые проценты, обнаруживая при этом, что их сумма не равна 100%.

Посмотрите, например, на распределение воды в живых организмах. Если сложить все указанные числа, то сумма составит 101,6% вместо ожидаемых 100%. Почему так? Это ошибка авторов картинки? Или дело в чём‑то ещё?

Погрешность и проблемы точности

В математике любое число идеально точно. Даже такое иррациональное и трансцендентное число, как π, которое мы не можем записать точно в силу бесконечности его десятичной записи, является идеально точным с точки зрения абстрактной теории.

В реальном же мире величины как точные числа — это, скорее, роскошь, чем обычное дело. Вот, например, физические постоянные обычно известны лишь приблизительно — за редкими исключениями.

Чаще всего та или иная величина известна нам лишь с какой‑то погрешностью. Причём проблема состоит как в точности измерений, так и в изменчивости показателя.

Например, население планеты Земля известно на основе переписей населения, государственного учёта и различной государственной и негосударственной статистики. Однако эти оценки не являются точными — в первую очередь, конечно, из‑за недоучёта сельского населения. Кроме того, каждую минуту рождаются новые люди и умирают старые. Поэтому население Земли известно лишь приблизительно.

В качестве другого примера рассмотрим проблему точности измерения длины рельсов. Все рельсы, по‑хорошему, должны иметь одинаковую стандартную длину, но будут ли два стандартных рельса при этом действительно полностью идентичны? Какие тут могут возникнуть проблемы?

Рельсы Р65 ДТ350 длиной 12.5 м
Рельсы Р65 ДТ350 длиной 12.5 м

Во‑первых, существуют технологические допуски. Например, рельс Р43 по ГОСТ может иметь погрешность до ±6 мм на 1 м. Во‑вторых, рельсы подвержены тепловому расширению, из‑за которого, как известно, при их монтаже полагается соблюдать зазоры. Поэтому длина стандартной рельсы 12,5 м на самом деле составляет 12,5 м ±75 мм, и ещё порядка 20 мм может добавить тепловое расширение. А 12,5 м — это некая средняя величина с некоторой погрешностью. Для стандартных рельсов длины 25 м, 50 м и 100 м погрешность будет ещё больше.

Каждый раз, когда мы имеем дело с каким‑то реальным показателем биологии, физики, экономики и иных наук, мы имеем дело с усреднённым значением, измеренным с какой‑то погрешностью. Обычно небольшой и незаметной, но иногда это оказывается очень важно.

Например, мы можем считать длину рельсы равной 12,5 м, тогда 1000 рельсов образуют 12,5 км. Однако общая погрешность ±75 мм при таком количестве рельсов составит 75 м — это длина целых 6 рельсов! Кроме того, мы тут игнорировали зазоры на тепловое расширение. Если они составляют 10±1 мм, то на 1000 рельсов наберётся уже 10 метров общего зазора с погрешностью ±1 м.

Каждый раз, когда мы складываем две величины с некоторой погрешностью, мы неявно складываем и их погрешности. Чем больше слагаемых в сумме, тем больше слагаемых и в погрешности. На тысяче слагаемых погрешности у нас набралось довольно много.

Погрешность округления

В частности, дополнительную погрешность вносит округление. Ведь любое округление — это намеренное уменьшение точности.

Легко заметить, что в инфографике о распределении воды все проценты округлены максимум до десятых долей. Округление вообще означает неявно добавляемую погрешность в половину единицы округления. При округлении до целых погрешность составит ±0,5%, при округлении до десятых — ±0,05%, при округлении до пятого знака — ±0,00005%.

Если перед нами круглая величина 23% для показателя, который вряд ли был измерен точно, то это, скорее всего, округление до целого — и мы не знаем, какое именно из значений от 22,5% до 23,5% было у неё до округления.

Более того, на инфографике величины явно округлены по‑разному: некоторые — до целых процентов, а некоторые — до десятых долей процента. Если быть более точным, 6 величин округлены до целых (погрешность каждой ±0,5%) и 5 величин — до десятых (±0,05%). Можно посчитать общую величину погрешности их суммы:

6×0,5%+5×0,05%=3,25%.

Таким образом, сумма 101,6%, которую можно получить сложением процентов с картинки, на самом деле означает 101,6%±3,25%, или от 98,35% до 104,85%. Что не противоречит тому, что общее количество воды в живых организмах составляет 100% — ведь это значение попадает в интервал от 98,35% до 104,85%.

Сферические кони

Кто‑то может сказать, что авторы инфографики что‑то плохое сделали с исходными данными, поэтому и получили такую погрешность. Чтобы наглядно увидеть, почему погрешность может возникнуть даже при максимально аккуратной работе с цифрами, рассмотрим конкретный пример.

Пусть у нас в результате исследований популяции сферических коней в вакууме получилась следующая инфографика распределения сферических коней в вакууме по мастям: серой, бурой и малиновой.

-3

Как легко заметить, сумма процентов на этой диаграмме равна 92,6%+7,4%+0,1%=100,1%. И это больше 100%. Как же так вышло? Давайте разберёмся.

Для начала рассмотрим исходные данные. Наша популяция сферических коней в нашем вакууме составляет 54240 голов. Из них 50200 серых, 4000 бурых и 40 малиновых.

В процентном отношении: 92,5516224188791%, 7,3746312684366%, 0,0737463126844%.

Числа с таким большим количеством знаков тяжело воспринимать. Попробуем округлить их до целых: 93%+7%+0%=100%. Да, сумма теперь в точности равна 100%, но третий показатель величиной 0% не очень радует — у нас же ненулевое количество малиновых коней! Поэтому хочется округлить как‑то иначе, чтобы это отразить.

С уже ранее представленным на диаграмме округлением до десятых получим 92,6%+7,4%+0,1%=100,1%. Да, вышло больше 100%. Почему? Потому что все три значения мы округлили вверх, благодаря чему насчитали лишние 0,1%. И именно это изображено в нашей инфографике.

Собственно, округление «до десятых» означает, что каждый показатель будет иметь погрешность вплоть до ±0,05%. Общая погрешность сложения трёх таких процентных величин с погрешностью каждой ±0,05% составляет ±0,15%. Величина 0,1% фактического отличия нашей суммы 100,1% от 100% как раз и вписывается в ±0,15%.

Округлим до сотых: 92,55%+7,37%+0,07%=99,99%. Теперь вышло меньше 100%. Потому что тут мы округлили все три значения вниз и недосчитались 0,01%.

До тысячных: 92,552%+7,375%+0,074%=100,001%. Опять больше, чем ожидалось.

До десятитысячных: 92,5516%+7,3746%+0,0737%=99,9999%. Снова меньше.

До стотысячных: 92,55162%+7,37463%+0,07375%=100%. Наконец‑то!

Давайте теперь сложим исходные проценты до округления:

92,5516224188791%+7,3746312684366%+0,0737463126844%=100,0000000000001%.

Опять не сошлось. Почему так? Потому что эти значения тоже не являются точными — они округлены до 13‑го знака. Хотя, честно говоря, ошибка 0,0000000000001% в этой сумме — это примерно 0,00000000005 сферического коня для нашего поголовья в 54240 сферических коней. Почти незаметно.

Если бы мы складывали больше процентных показателей, то могли бы получить погрешность ещё выше. Как случилось в инфографике о распределении воды. Чем больше слагаемых, тем выше погрешность.

Что делать?

Как бы нам улучшить нашу инфографику о сферических конях, чтобы было красиво? Рассмотрим разные варианты:

  1. Если мы хотим иметь максимально точные проценты, то подойдёт вариант с большим количеством знаков после запятой — например, до 13 знаков. Да, это будет довольно точно. Но очень громоздко. И сумма всё равно не будет равна 100%.
  2. Целые проценты дают очень лёгкие для восприятия числа и сумму в ровные 100%, но не очень радует 0% в одном из показателей — как будто малиновых коней у нас вообще нет.
  3. Все варианты округления менее чем до 5 знаков дают общую сумму, не равную 100%.
  4. Округление до 5 знаков даёт, наконец, сумму 100%, но значения становятся слишком громоздкими и тяжёлыми для восприятия — так себе вариант для задачи повышения наглядности.

В общем, как ни крути, а в каждом варианте что‑нибудь да выходит не очень хорошо. Страдает либо точность, либо наглядность.

Что же делать? Давайте посмотрим на проблему с другой стороны. Между 92,55% и 92,45% разница не так ощутима, как между 0,07% и 0,17%. Поэтому, если мы хотим, чтобы было действительно наглядно, будет удобнее сильнее округлить более высокие значения процентов, чем более низкие.

Например, можно сделать так: 92,6%+7,4%+0,07%. То есть два показателя округлить до десятых долей, а один — до сотых. Сумма составит 100,07%. Это не точные 100%, но при этом сами показатели наглядны: большие значения не перегружены излишней точностью, а малому значению точность дополнительно увеличена. И это всё равно лучше, чем первоначально инфографика, где один из показателей вместо 0,073…% после округления стал равен 0,1% и увеличился примерно на треть!

Таким образом, мы сделали нашу инфографику сферических коней в вакууме более понятной для восприятия и при этом уменьшили искажения относительно фактических значений.

Да, конечно, сумма процентов всё ещё не равна 100%, но это при таких показателях неизбежно. Конечно, при очень большом желании можно немного «подкрутить» проценты, чтобы добиться 100%. Но только за счёт ещё большего искажения данных. А ведь именно излишнего искажения мы и хотели избежать!

Аналогично авторы инфографики с распределением воды точно так же по‑разному округляли различные проценты, чтобы сделать восприятие конкретных чисел более лёгким. Достичь суммы 100% они смогли бы только через грубое искажение данных.

Заключение

Специалисты, которые часто работают с данными, хорошо знакомы с проблемой погрешности чисел, в том числе вызываемой округлением. Поэтому их не пугает, что сумма значений процентных показателей может не быть равна 100%. Это более чем нормально.

Если вам понравилась статья, подписывайтесь на наш канал, ставьте лайки и оставляйте комментарии. А также не забывайте про колокольчик, чтобы не пропустить наши новые материалы, — это очень мотивирует нашу команду.

Также вы можете найти нас в Telegram и ВКонтакте: там мы публикуем мемы и короткие материалы, которые не всегда подходят для Дзена. С недавнего времени вы можете поддержать нас разовым донатом. Спасибо, что читаете нас!

Автор: Александр Зейналов