В нормальной жизни цифры ведут себя не так, как кажется человеку. Если человека попросить придумать "правдоподобные" суммы, он накидает много девяток, много круглых хвостов, мало единиц. Вообще никакой случайности, только человеческая фантазия. А вот настоящие данные подчиняются странному, но очень устойчивому правилу, известному как закон Бенфорда.
Почему первые цифры распределены неравномерно
В реальности данные растут мультипликативно, а не линейно. Цены, долги, продажи, счета, население, обороты — всё это не прибавляется по десять рублей, а растёт в процентах. Когда что-то растёт в процентах, оно движется в логарифмическом масштабе. И вот там случается магия: числа проводят разное время в каждом диапазоне.
Пример: чтобы вырасти с 1 до 2, нужно +100%. Чтобы вырасти с 8 до 9 — всего +12.5%. Из-за этого "единичные" диапазоны встречаются чаще: у них длиннее путь роста.
Первая цифра (1–9) в естественных наборах данных встречается с вероятностями:
- 1 — 30.1%
- 2 — 17.6%
- 3 — 12.5%
- 4 — 9.7%
- 5 — 7.9%
- 6 — 6.7%
- 7 — 5.8%
- 8 — 5.1%
- 9 — 4.6%
А последняя цифра, наоборот, распределяется равномерно — около 10% на каждую. Хвост — равномерный, голова — нет.
То есть мир цифр не любит равномерность. Он любит логарифмы.
Реальный случай, который знают все аудиторы
В одной американской компании бухгалтер тихо рисовал себе фальшивые счета за услуги. Не наглел: суммы ставил мелкие, чтобы не палиться. Но прокололся на том, на чём прокалываются почти все любители “подправить отчёт”.
Внешний аудитор прогнал расходы через анализ Бенфорда:
- нормальные закупки компании идеально ложились в кривую;
- "особые" услуги, которые вносил бухгалтер вручную, резко выбивались.
Там было дикое количество сумм, начинающихся на 7, 8 и 9, почти полное отсутствие единиц, куча круглых хвостов и подозрительно ровные десятки. Человек пытался быть "правдоподобным" и в итоге выдал себя настолько очевидно, что даже Excel, наверное, слегка покраснел.
После проверки времени транзакций выяснилось, что он проводил эти операции вечером, когда никого не было. После проверки контрагентов — что часть фирм фальшивые. В сумме он увёл более 200 тысяч долларов. И пал не из-за доноса, не из-за ревизии склада, а из-за того, что математика в очередной раз поймала человека, который думал, что случайность можно имитировать руками.
Почему закон Бенфорда так эффективен
Потому что человеческое мышление ужасно в создании случайных паттернов. Мозг не умеет генерировать хаос. Он любит симметрию, круглые числа, предсказуемость. А настоящий поток данных — это органический шум, логарифмический рост и асимметрия. И когда поддельные данные сталкиваются с настоящими, контраст виден мгновенно.
Где это используют
- аудит компаний;
- налоговые проверки;
- поиск коррупции в отчётности;
- анализ финансовых потоков в банках;
- расследования мошенничества.
Отдельного упоминания заслуживает сайт Testing Benford's Law — маленькая статистическая лаборатория. Там можно проверить десятки реальных наборов данных на соответствие закону Бенфорда: от популяций стран и файловой системы Linux до голосований на выборах в России и популярных iPhone-паролей. Сайт сразу рисует, насколько выборка совпадает с логарифмическим распределением.
Случайность — очень мощный инструмент проверки. Слишком мощный, если честно.
Если вам нужна настоящая случайность, а не человеческая имитация, заходите в канал "Лаборатория решений" и пробуйте нашего бота. Он как раз генерирует такое распределение, что никакому Бенфорду не подкопаться... даже если он очень постарается.