Найти в Дзене
Енот-математик

Закон велосипедиста

Оглавление

В далёком 1977 году в свет вышла книга, которую быстро начали разбирать на цитаты все кому не лень — от журналистов до учёных. Выдержки из неё превратились в «народную мудрость», стали появляться в заголовках газет и журналов и даже упоминаться в серьёзных научных трудах. Однако сама по себе она ничему не учила, в ней не предлагалось новаторских методик, она не раскрывала глаза на какую-то «правду». В ней можно было найти только то, что хорошо известно всем на свете, и именно этим она подкупила читателя. Книга называлась «Закон Мёрфи и другие причины, почему все идёт не так», а написал её американский публицист Артур Блох. Почему же некие «законы» пришлись по душе широкой публике? Потому что они относятся к повседневным неприятностям, досадным совпадениям, надоевшему несовершенству нашего мира. А мы, люди, очень любим жаловаться. Особенно когда жалобы «объективны». Иначе говоря, виноваты в неприятностях могут быть какие угодно обстоятельства, случайности или закономерности, но только не тот, кто жалуется, и не тот, кто его выслушивает.

В 2022 году я написал свою книгу, посвящённую математическим основам "законов подлости": Вероятности и неприятности, в которой неприятности используются как повод познакомить читателя с основами теории вероятностей и математического мышления. Вот один из простых примеров оттуда.

* * *

Я большой энтузиаст любительского велосипедного спорта. Многие задачи, вошедшие в эту книгу, я обмозговывал в седле, вертя их мысленно и так и эдак, пытаясь найти наиболее наглядный и простой подход к их объяснению. Что может быть лучше, чем мчаться по трассе ранним утром, по холодку, скатываясь с лёгкого склона… Это ощущение стоит того, чтобы ради него преодолевать бесконечные подъёмы или сопротивление встречному ветру! Правда, порой кажется, что подъёмов больше, чем спусков, а ветер норовит быть встречным, куда ни поверни. В книгах по мерфологии в связи с этим приводится закон велосипедиста:

Независимо от того, куда вы едете, — это в гору и против ветра.

Живу я на Камчатке. В Петропавловске много горок — катаясь по городу, их не миновать. Однако меня должна успокаивать такая мысль: начиная свой путь из дома, я возвращаюсь снова туда, а это значит, что суммарный спуск должен быть равен суммарному подъёму. Особенно честным будет маршрут, в котором прямой и обратный пути совпадают.

Представим себе 2-километровую трассу, которая состоит из одной симметричной горки: километр вверх, километр вниз. Вверх по склону я могу достаточно долго ехать со скоростью 10 км/ч, а на спуске стараюсь держать скорость 40 км/ч (я осторожный велосипедист и всегда езжу в шлеме).

Исходя из этих условий, на подъëм я буду тратить в четыре раза больше времени, чем на спуск, и общая картина получится такой: 4/5 времени путешествия уйдет на тягучий подъем и лишь 1/5 — на приятный спуск. Обидно — 80% времени прогулки займет сложный участок пути! Этот результат не зависит от длины горок, а определяется лишь соотношением скоростей. Если я выкачусь из нашего холмистого города в сторону океана или в долину реки Авачи, горок почти не будет, но в моём распоряжении остаются встречный и попутный ветер или участки с плохой дорогой, которые также способны отнять значительную часть времени путешествия.

Взглянем на закон велосипедиста несколько иначе. Если я сделаю множество селфи на протяжении своей велопрогулки в случайные моменты, а потом займусь их подсчетом и классификацией, то обнаружу, что большинство картинок показывает мне согбенную фигуру в оранжевом шлеме, упорно ползущую вверх по склону либо сопротивляющуюся встречному ветру. Доля снимков с летящим и сияющим велосипедистом, как на рекламной картинке, увы, составит лишь около 20%. А что скажет статистика? Если мы выпустим на холмистую трассу большую толпу велосипедистов, подождем немного и понаблюдаем за их плотностью, то увидим, что бóль­шая часть спортсменов толпится на трудных участках, а доля безмятежно улыбающихся лиц не так уж и велика!

Измеряем уровень подлости

Давайте, как когда-то в школе, покажем на графике зависимость перемещения велосипедиста от времени при движении по симметричной треугольной горке. Только сделаем всё «по-взрослому», в так называемых собственных масштабах задачи: расстояние станем измерять не в километрах, а в долях общего пути. Так же поступим и со временем путешествия. Первую половину пути велосипедист двигался медленно и долго — 4/5 всего времени, — а вторую преодолел быстро — за 1/5 времени.

Диаграмма перемещения велосипедиста в долях от общего пути и времени
Диаграмма перемещения велосипедиста в долях от общего пути и времени

Что же нам показывает полученный график? Во-первых, мы можем сравнить скорости на разных участках (наклоны) со средней скоростью, которая соответствует диагональной линии. Во-вторых, становится наглядным соотношение 80/50 — 80% времени путешествия заняла трудная половина маршрута. Кроме того, из графика можно заключить, что за первую половину расчетного времени путешествия велосипедист успеет преодолеть лишь треть пути. Пока все предельно просто и понятно.

А что, если маршрут велосипедиста усложнится и перестанет быть симметричным? Что, если участков с подъëмами и спусками окажется несколько, и все они будут разными по сложности? Можно изобразить путешествие и на этот раз — например, так, как показано на рисунке:

Диаграмма перемещения велосипедиста для более сложного маршрута
Диаграмма перемещения велосипедиста для более сложного маршрута

Такая диаграмма хорошо отражает характер пути, но не дает представления об общем соотношении легких и трудных участков; иными словами, она ничего не говорит о распределении скоростей. Чтобы увидеть это распределение, упорядочим отрезки пути по скорости от самых медленных до самых быстрых, после чего вновь нанесем их на диаграмму (рис. 1.5).

Диаграмма перемещения велосипедиста для распределения скоростей
Диаграмма перемещения велосипедиста для распределения скоростей

Мы потеряем при этом информацию о последовательности участ­ков, зато получим обобщающую картину, отражающую то, что можно было бы условно назвать «справедливостью» распределения. Более того, если вместо одного велосипедиста мы взглянем на группу спортсменов, ездящих по этому маршруту в произвольном направлении, то наша диаграмма практически не изменится, разве что несколько сгладится из-за разброса скоростей. Ее смысл останется прежним: она покажет, насколько этот маршрут отклоняется от самого справедливого, на котором время преодоления участка не зависит от его «трудности», а определяется только его длиной.

Пора пояснить, откуда взялась такая странная терминология. С начала XX века у эконометристов, демографов, экологов и маркетологов появились вполне универсальные способы суждения о несправедливости этого мира — кривая Лоренца и связанный с ней индекс Джини.

Для известного распределения в некоторой популяции чего-нибудь ценного, например денег, можно, отсортировав элементы множества по возрастанию уровня богатства, построить кумулятивную кривую. Она строится путем последовательного суммирования вкладов каждого члена группы и показывает, как по мере добавления новых членов растет общее благосостояние популяции. Далее нужно поделить все значения, отмеченные по оси X, на численность популяции, а по оси Y — на общее ее благосостояние, перейдя от конкретных чисел к долям или процентам. Получится кривая, носящая имя американского экономиста Макса Отто Лоренца. Когда мы строили график перемещения велосипедиста по простой треугольной горке, мы, по существу, создали кривую Лоренца для распределения скоростей по отрезкам пути, состоящего всего из двух столбцов, как показано на рисунке:

Распределение скорости велосипедиста по пройденному пути
Распределение скорости велосипедиста по пройденному пути

Конечно, не всякий график перемещения можно воспринимать как кривую Лоренца. Для начала нужно отсортировать периоды путешествия по возрастанию скорости, после чего приступать к построению. Можно построить гистограмму скоростей, сгруппировав известные нам данные по принадлежности к известным интервалам значений, после чего последовательно суммировать вклады всех данных гистограммы, начиная с малых значений и заканчивая самыми большими. Результатом должна стать всюду вогнутая кривая, которая проходит ниже диагонали, — настоящая кривая Лоренца. Упомянутая диагональ называется кривой равенства, она в нашем случае соответствует постоянной (средней) скорости на всем пути или гистограмме с единственным столбиком (такое распределение называется вырожденным). В экономическом контексте кривая равенства отражает всеобщее равенство благосостояния в обществе. Чем больше кривая Лоренца отклоняется от кривой равенства, тем менее «справедливым» можно считать распределение. И, раз уж мы изучаем законы подлости и несправедливости нашего мира, разумно использовать терминологию и инструменты, созданные именно для исследования справедливости.

Площадь под кривой Лоренца для любого невырожденного распределения будет меньше площади под кривой равенства. Их разница может служить формальной характеристикой неравенства или «несправедливости» распределения. Эту роль на себя берет индекс Джини. Он вычисляется как удвоенная площадь замкнутой фигуры, образуемой кривой равенства и кривой Лоренца (ее мы показали заливкой на рис. 1.5), и лежит в диапазоне от 0 до 1. Для кривой равенства, идеального вырожденного мира, индекс Джини равен 0, а в самом кошмарном варианте, когда все богатство группы принадлежит одному ее члену, он равен 1. В рассмотренном нами примере он составляет 0,35. Это неплохой показатель. Скажем, распределение богатства среди населения в России сейчас имеет индекс Джини 0,39, в США — 0,49, в Австрии и Швеции не превышает 0,3, а для всего мира он в 2017 году составил 0,66. Так что приведенная нами в качестве примера ситуация с велосипедистами, конечно, несправедлива, но вполне терпима.

Обратите внимание на то, что с помощью некоторого формального индекса мы стали сопоставлять совершенно разные и несравнимые вещи. Это одновременно и заманчиво, и опасно. Нужно отдавать себе отчет в том, что формальные индексы и числовые показатели всегда чему-то равны, независимо от того, есть в этом какой-либо смысл или нет. Мы сравниваем распределение богатства среди населения стран и распределение времени, затрачиваемого на преодоление пути, с точки зрения отличия от некоторого варианта, который сочли бы справедливым. Пока мы ведем фривольные и подчас хулиганские разговоры о законах подлости, пожалуй, это оправданное сравнение; но в науке так, конечно, делать нельзя. Кривую Лоренца и индекс Джини можно формально рассчитать и для гистограммы яркости пикселов на картинке или для частотности слов в живой речи. Но к справедливости это не будет иметь никакого отношения, да и смысла останется совсем немного, поэтому, имея в виду индекс Джини для чего попало, мы будем его называть индексом подлости, чтобы не вводить читателя в заблуждение наукообразностью терминов.

Кривые Лоренца и индекс подлости позволят нам смело сравнивать возмутительно разные вещи. Математика — точная наука, но никто не запрещает математикам хулиганить. В своем, конечно, кругу и без драк.

От закона велосипедиста к парадоксу инспекции

Вывод, который делает велосипедист, пыхтя на пониженной передаче: «Мир несправедлив, бóль­ш ую часть сил отнимает самая дурацкая часть работы», — часто именуют принципом Парето или принципом «80/20»: «80% усилий дают 20% результатов». Это абсолютная эмпирика: принцип Парето никто не доказывал, но его так часто цитируют, что он уже производит впечатление истины. Его используют и как оправдание неудачам, и даже как инструкцию, обнаруживают в самых разных проявлениях. Иногда это работает: например, принципу «80/20» соответствует индекс подлости около 0,6, как для распределения богатства в мире.

-6

У принципа Парето есть полезное для понимания более строгое обобщение. Закон подлости, названный Артуром Блохом в честь безымянного велосипедиста, имеет официальное научное звание: парадокс инспекции. Это хорошо известное явление встречается в разных исследованиях, связанных с социологическими опросами, тестированием, и в теории отказов (разделе прикладной математики, занимающемся надежностью сложных систем), неявно, но систематически смещая наблюдаемые результаты в сторону наиболее часто наблюдаемых явлений.

Приведём классический пример, связанный с неудовольствием пассажиров общественного транспорта. На линии в некоем городе работает множество автобусов. В относительно короткий час пик они переполняются, всё же остальное время ходят почти пустыми. Если мы станем опрашивать пассажиров, то выясним, что бóль­шая их доля оказалась невезучей и ехала в переполненном транспорте (по той простой причине, что в переполненном автобусе было больше людей), и получим выражение общего недовольства. Если же мы опросим водителей, то они тоже начнут жаловаться, но, как ни странно, на незаполненность большинства маршрутов и неразумность руководства, гоняющего их попусту. Гибкий график сгладит ситуацию, но в любом случае кривая Лоренца будет отклоняться от кривой равенства, соответствующей невероятной ситуации всегда одинакового числа пассажиров во всех автобусах.

В учебниках по теории вероятностей часто встречается специальный непрозрачный мешок, в который математики складывают разнообразные объекты, а потом наугад вытаскивают их, делая подчас весьма глубокомысленные выводы. Разрешение нашего парадокса в том, что, анализируя систему пассажиропотока в целом, мы кладём в мешок автобусы, а проводя опрос, достаëм из него наугад пассажиров и по их данным пытаемся делать выводы об автобусах.

Рассмотрим эту ситуацию подробнее, построив кривую Лоренца (на этот раз настоящую) для числа пассажиров в автобусах, показанных на рисунке:

Статистика по автобусам говорит, что в 75% машин есть свободные места, то есть они ходят не в полной мере эффективно. А опрос пассажиров обнаружит, что 61% людей, воспользовавшихся автобусом в этот день, оказались в переполненном транспорте и остались недовольны
Статистика по автобусам говорит, что в 75% машин есть свободные места, то есть они ходят не в полной мере эффективно. А опрос пассажиров обнаружит, что 61% людей, воспользовавшихся автобусом в этот день, оказались в переполненном транспорте и остались недовольны

Для этого нужно отсортировать машины по числу пассажиров и последовательно суммировать вклад каждого в общий пассажиропоток.

-8

Полученные кумулятивные суммы следует разделить на их максимальные значения, чтобы получить доли, например, в процентах, после чего их можно нанести на диаграмму

Кривая Лоренца хорошо иллюстрирует несправедливость ситуации с автобусами: половина возит лишь четверть всего пассажиропотока, а на 25% перегруженных машин приходится половина пассажиров
Кривая Лоренца хорошо иллюстрирует несправедливость ситуации с автобусами: половина возит лишь четверть всего пассажиропотока, а на 25% перегруженных машин приходится половина пассажиров

Кривая Лоренца в данном случае показывает, как распределение числа элементов в некоторых группах (горизонтальная ось) смещается при анализе распределения элементов по принадлежности к группам (вертикальная ось). В этом, собственно, и состоит парадокс инспекции: картинка, которую наблюдает инспектор, оказывается искажëнной. Ведь он анализирует не группы, а их элементы, и при этом наблюдаемые значения смещаются в сторону более «весомой» части распределения.

Сам по себе закон велосипедиста очень прост, но он то и дело будет усугублять другие законы подлости, прибавляя им угрюмой эмоциональной окраски. Размышляя об этом, мне нравится представлять, как искажается восприятие мира инспектором, становясь контрастнее. В растровых графических редакторах есть инструмент «Кривые». Он позволяет дизайнеру или фотографу тонко менять контраст картинки, манипулируя распределением числа пикселов по яркости. Вот, например, как меняет восприятие реальности кривая Лоренца, полученная нами для автобусов. Картина мира становится мрачнее, как мы и ожидаем.

Кривая Лоренца из примера, применённая в качестве фильтра «Кривая» в растровом графическом редакторе, делает видимую картину камчатского автобуса мрачнее. Сетуя на то, что автобусы «вечно опаздывают» и «вечно полны народу», утешайтесь тем, что, это всего лишь иллюзия, связанная с парадоксом инспекции!
Кривая Лоренца из примера, применённая в качестве фильтра «Кривая» в растровом графическом редакторе, делает видимую картину камчатского автобуса мрачнее. Сетуя на то, что автобусы «вечно опаздывают» и «вечно полны народу», утешайтесь тем, что, это всего лишь иллюзия, связанная с парадоксом инспекции!

Крайнее проявление парадокса инспекции возникает, если в группах, помещенных в наш теоретический мешок, есть не просто редкие элементы, а элементы, не наблюдаемые вовсе. Тогда мы получаем то, что статистики, демографы и публицисты называют систематической ошибкой выжившего.

Часто её демонстрируют на примере с дельфинами, которые спасают людей, оказавшихся волею несчастного случая в открытом море. Дельфины обнаруживают на поверхности моря любопытный несъедобный объект (человека) и играют с ним, подталкивая носом. При этом они необязательно толкают его в сторону ближайшего берега — часть людей они уводят в открытое море, поскольку разумно предположить, что для дельфина берег, да еще и населенный людьми, опасен. Однако, если всё же дельфины толкают потерпевшего именно к берегу, в сторону спасения, и он благодаря этому выживает, весь мир облетает новость: дельфины спасли человека! О поведении дельфинов во всех прочих печальных случаях, увы, мы не узнаем ничего. Эти элементы из мешка мы не достанем и в статистику они не попадут, так что мы получим явно искажëнную картину.

Об этом явлении часто рассказывают в различных демотивирующих статьях для начинающих бизнесменов, уверяя их в том, что успешный путь, описываемый в мотивационных книгах, скорее всего, не для них: «неудачники книг не пишут». Впрочем, к законам подлости это отношения не имеет, тут мы касаемся психологии. Парадокс инспектора и ошибка выжившего действительно способны искажать восприятие действительности, омрачая ее либо придавая излишне радужную окраску. Но с научной точки зрения это методические ошибки при получении и обработке данных. К сожалению, они приводят к расхожему мнению о статистике как нечестном манипулировании фактическими данными среди людей, весьма далеких от этих методик. О таких ошибках знать полезно, чтобы избегать их в своей работе и критически относиться к новостям, слухам и недобросовестным исследованиям. Этой теме посвящена относительно недавняя книга Джордана Элленберга «Как не ошибаться», содержащая множество ярких примеров того, как статистические данные и числа могут быть до забавного неверно поданы и интерпретированы.

* * *

Мы встречаемся с парадоксом инспекции и его влиянием в разных ситуациях: стоя в очереди или на автобусной остановке, рассуждая о судьбе. Поняв, что это не козни рока, а простейшая математика, с которой бороться смысла нет, можно научиться получать удовольствие и от затяжных подъемов, и от нудных, но неизбежных этапов работы — хотя бы решая в уме задачи или медитируя. Даосы стремились жить вечно и верно рассудили, что вместе с работой над телом для достижения их цели требуется подготовка ума. Ведь для вечной жизни нужно не только умение отпускать привязанности, но и терпение, а также способность получать удовольствие от затяжных участков.

────────────────────────

Хотите, чтобы в вашей ленте Дзена было больше интересных и глубоких материалов? Подскажите алгоритму Дзена, что там нравятся публикации, подобные этой, подпишитесь, поставьте лайк или прокомментируйте.

Давайте формировать информационную среду вместе!