Каков шанс, что любое случайно взятое из какой-нибудь энциклопедии, книги или газеты число начнется с цифры "1"? А с цифры "3"? А с цифры "9"? Даже если ты не имеешь никакого понятия о теории вероятности, чисто интуитивно кажется, что шанс одинаков для каждой цифры и равен 100:9=11,(11)%.
Но нет, это не так. Если посмотреть на реальные числа, которые встречаются в жизни, а не придуманы от балды, чисел, которые начинаются с девятки намного меньше, чем 11% (на самом деле около 4%), а с единицы число будет начинаться почти в трети случаев (примерно 30%).
Иными словами, если вы будете читать газеты, чаще всего вам будут встречаться числа, начинающиеся с "1", чуть реже с "2", ещё чуть реже с "3" и так далее, а реже всего будут попадаться числа на "9". Если без формул и уточнений, то это и есть закон Бенфорда.
Несмотря на кажущуюся невозможность, противоречивость теории вероятности, здравому смыслу и невозможность, он работает на всех реальных числах, если они не имеют естественных ограничений (типа рост человека или IQ).
Этот закон работает с ценами на акции, длинами рек, населением стран, площадями, числами в газетах, книгах и справочниках, рецептами, статистикой бейсбольных матчей. И даже атомный вес элементов таблицы Менделеева подчиняется этому закону.
Вообще Закон Бенфорда было бы логичнее назвать Законом Ньюкомба. Именно Саймон Ньюкомб примерно в 1881 году обратил внимание на эту странную закономерность, когда взял в библиотеке тетрадь с логарифмическими таблицами.
Он обратил внимание на то, что страницы тетради, на которых были числа, начинающиеся на единицу, были гораздо сильнее потрепаны и затроганы, нежели страницы где были числа, начинающиеся на "2" и так далее. А страницы с числами на "8" и "9" были и вовсе почти как новые, такое чувство, что их никто никогда не открывал.
Спустя чуть больше полувека в 1938 году подобное заметил Френк Бенфорд. Причем при тех же обстоятельствах. Он тоже листал тетрадь с логарифмическими таблицами в научно-исследовательской лаборатории General Electric и обнаружил, что частота появления цифры в качестве первой падает по мере того, как цифра увеличивается от одного до девяти.
Он даже примерно подсчитал частоту появления цифр. Для единицы это 30,1%, для двойки — 17,6%, для тройки — 12,5% и так далее до девятки — 4,6%, смотри картинку ниже.
Проблема была в том, что несмотря на то, что закон работал с почти всеми реальными числами, доказать его не смогли ни Ньюкомб, ни Бенфорд. Доказал этот закон Тед Хилл лишь в 1995 году.
Что странно: заметил Закон Ньюкомб, доказал — Хилл, а назвали его именем Бенфорда. Хотя в некоторых странах справедливость всё-таки есть и закон называют двойной фамилией Законом Ньюкомба-Бенфорда.
Борьба с мошенничеством с помощью закона Бенфорда
Не будем вдаваться в подробности доказательства, лучше поговорим о практическом применении этого закона. Во-первых, с помощью Закона Бенфорда можно находить мошеннические схемы. Например, в бухгалтерском учете или переводах со счета на счет. В 90-ые Марк Нигрини даже создал специальную компьютерную программу для выявления финансовых махинаций.
Дело в том, что когда данные вносятся искусственно, человек не может придумать их поистине случайно и распределение начинает отличаться от бенфордского. Разумеется, этот факт не может являться доказательством мошенничества, отмывания денег или вбросов, но это вызывает подозрение и появляется повод устроить более детальную проверку.
Во-вторых, с помощью Закона Бенфорда можно проверить, были ли вбросы на выборах. Как и в случае с финансовым мошенничеством, неправильность распределения не может служить доказательством в суде, но это повод покопаться глубже или использовать данные для антипиара, ведь СМИ могут преподнести график с тем соусом, который нужен.
И все же надо сказать, что в ряде случаев, в том числе в случае с выборами, закон Бенфорда работать не будет. Если все округи и районы охватывают примерно одно и то же население (один и тот же порядок), то закон работать не будет так же, как и в случае с вестом или ростом людей.
Отличный пример — Чикаго (смотри график выше), по поводу которого было много шума. Огород демократов засыпали камнями после появления этого графика в СМИ. Однако, если взглянуть на проблему глубже, скорее будут вопросы к республиканцам, потому как население 98,7% округов состоит в одном порядке (так же, как в Британских избирательных округах), а значит, закон Бенфорда здесь и не должен выполняться. Проблема в том, что мало кто разбирается в этом, чтобы понимать такие нюансы.
Надеюсь, было не слишком занудно и долго, так что если дочитали до конца ставьте лайк, подписывайтесь на мой Ютуб-канал и вот, что ещё будет интересно: