Найти в Дзене
Простая Наука

Закон Бенфорда, или закон первой цифры.

Первым проявление этого закона заметил американский астроном Саймон Ньюком в 1881 году. Он заметил, что книги, с логарифмическими таблицами, сильнее всего потрепаны там, где содержатся логарифмы чисел, начинающихся с единицы, и целы для чисел, начинающихся на 9.
Повторно это явление обнаружил физик
Фрэнк Бенфорд в 1938 году. Бенфорд проанализировал около 20 таблиц, среди которых были данные о площади бассейнов 330 рек, удельной теплоёмкости и молекулярном весе тысяч химических соединений и, а также, номера домов 340 улиц, из справочника. Анализ чисел показал, что единица является первой значащей цифрой с вероятностью не 1/9, как следовало ожидать, а около 1/3.

Логарифмическое выражение Закона Бенфорда.
Логарифмическое выражение Закона Бенфорда.

Где N- основание системы исчисления.

Распределение Бенфорда. По горизонтали — первые значащие цифры, по вертикали — вероятность их появления.
Распределение Бенфорда. По горизонтали — первые значащие цифры, по вертикали — вероятность их появления.
-4

Впоследствии закон Бенфорда получил своё объяснение — он применим ко множествам чисел, которые могут расти экспоненциально, например,

1. Население стран и городов. Как следствие: результаты демографических измерений, результаты выборов, региональные показатели, пропорциональные населению.
2. Площади бассейнов рек, площади стран и территорий, размеры островов.
3. Тиражи газет и книг.
4. Повседневные расходы. Просто посмотрите на все свои покупки за какой-то период времени.
5. Показатели изменений на финансовых рынках (отдельная большая тема, уверен что, кто-то из вас знает ее лучше меня).
Другими словами, темп роста величины пропорционален её текущему значению. При этом распределение зависит только от системы счисления, но не от единицы измерения. Другими словами, если
метры перевести в фунты, а квадратные километры — в акры, распределение не изменится.

В списке высот 56 высочайших строений мира в своей категории цифра «1» стоит на первой позиции намного чаще, чем цифра «9», независимо от единицы измерения:

-5

В качестве примера рассмотрим двузначные числа. Колличество цифр в них распределено равномерно — каждая цифра повторятся по 9 раз на первом месте и по 9 раз на втором месте. Для примера возьмём массив всех чисел не больше 100 , и обозначим его как T и пусть максимум m для любого числа из T случайная величина. Минимум для T пусть будет равен 0. Теперь представим что будет с распределением цифр в наборе T когда m принимает разные значения:
m < 10 — распределение равномерное — всех цифр поровну
10 <= m < 20 — цифра 1 повторяется 12 раз, остальные цифры по 2 раза
20 <= m < 30 — цифры 1, 2 повторяются по 13 раз, остальные по 3 раза
30 <= m < 40 — цифры 1, 2, 3 повторяются по 14 раз, остальные по 4 раза

Улавливаете закономерность? С каждым новым десятком добавляем одну цифру в компанию к единице и двойке, остальные равномерно по чуть-чуть. Заметили, что 1 повторяется больше 10 раз когда m — любое число больше 10? Двойка же повторяется больше 10 раз только когда m > 20, тройка и того реже. А девятка так вообще только если m больше 90.
Предположим что шанс для m быть любым числом от нуля до ста одинаков — то есть вероятность что m будет равен например 34 такая же как если m будет равен 68. Если мы возьмем множество разных наборов чисел, от 0 до некоего максимум, у каждого набора разный случайный максимум от 1 до 100, посчитаем процентное соотношение цифр в каждом наборе, а потом найдем среднее среди всех наборов, то вот тогда-то увидим, что единиц больше всего. Потому что в наборах где m меньше 20 но больше 9 единиц будет больше 10 штук, а остальных по чуть-чуть, а в наборах, где m например меньше 50, единиц будет все еще больше 10 (так же двоек, троек, четверок).
Это будет работать также когда мы выберем для m любой диапазон чисел от нуля.
Также доказаны и математические объекты, подчиняющиеся закону. Приведу небольшой список:
1. Последовательность степеней двойки, и любая другая экспоненциальная последовательность.
2. Числа Фибоначчи.
3. Факториалы.
Пример из курса Теории вероятностей, подчиняемых данному закону: Гамма-распределение, при k→0 это распределение подчиняется закону. Только Я не встречал случаев, чтобы на практике приходилось работать с этими распределениями со столь малыми значениями.

Теперь следует рассказать про законы, не попадающие под закономерность Бенфорда. Под этот закон не попадают сильно популярные равномерные и нормальные распределения. Также попадаются распределения с часто встречаемой первой единицей и на первый взгляд, похожих на закон Бенфорда, например атомная масса элементов и основные физические константы. Про атомную массу элементов хочется сказать особенно. Сам Бенфорд в оригинальной статье, указывал атомную массу, как пример закона удовлетворяющего «правилу первой цифры», однако закону, описываемому формулой (1) это распределение не удовлетворяет, хоть и видно явное преобладание первой единицы. И вот как легко в этом убедиться: достаточно умножить все значения на какое-нибудь одинаковое число, и посмотреть, что будет.

Основное применение закона Бенфорда: определение возможной фальсификации входящих значений в случаях, когда значения должны удовлетворять этому закону: в сетях передачи данных, в системах хранения данных, при проведении социологических опросов и выборов, некоторых научных экспериментах и так далее. Также закон Бенфорда чем-то похож и даже связан с принципом Парето и законом Ципфа, но это уже отдельные темы, так что будет продолжение…

Проверка распределения данных по закону Бенфорда используется для выявления злонамеренных манипуляций с данными, в том числе для выявления:

-подлогов в финансовых документах

-фальсификаций на выборах

Материал из Википедии — свободной энциклопедии.