ДЕТЕКТИВНОЕ ВСТУПЛЕНИЕ. Следователь пятый день рылся в бухгалтерских документах. Безрезультатно. Устало потер глаза. Должна же быть зацепка. Вот на прошлой неделе же справился, раскопал. Там хитрецы в большой розничной сети химичили на копейках. На реальных. Но копейки, умноженные на десятки миллионов продаж... На чем я их там подловил? Как-то запомнилось (от нудности развлекался наблюдениями) с ещё более ранней проверки, что итоговые копейки часто заканчиаются на 89 или на любую комбинацию из 7,8,9 и редко с участием нуля. Стал просматривать в рознице итоговые суммы с цифрами после запятой. А тут чего-то много окончаний типа 50, 55, 60, 65. Ну и перекрестной и цепочечной сверкой раскопал таки лажу. Стал присматриваться теперь к здешним уже построчным цифрам остатков товаров. Помните диалог из старого мультфильма "Следствие ведут колобки"- "...или одно из двух. Аналогично!" И здесь в последних цифрах заметно часто встречаются нули и начальные 1,2,3,4. Фууух, дальше дело техники найти их происхождение. ЦИТАТЫ: И.Ильф, Е.Петров "Статистика знает все." Марк Твен "...Есть...ложь, наглая ложь и статистика." Перефразируем известную поговорку так: Таланты глаголят истину. Разберем первую цитату: знает все. Действительно, все. Даже где бы и в голову не пришло ее применять. Оказывается имеются не просто закономерности, а общие таковые, в казалось бы не в связанных между собой подсчётах: какие в справочниках страницы потрепаны (а главное - почему), общность цифровых значений длин рек, теплоемкости химвеществ, нумерации домов, коммунальных счетах, ценах, демографии, площадей админединиц, высот зданий и др. Но есть и не связанные с только что названными, но тоже важные. Например, если человека попросить назвать случайное число из 1...9, то окажется что 7,6,5 уйдут в многократный отрыв от остальных. Теперь вторая цитата про наглую ложь - вот именно статистика ее и выявляет: в подтасовке выборов, в подлогах финансовых документов и проч. Термин "статистика" происходит от латинского "status" - состояние, положение вещей и его применил впервые в 1749 году немецкий учёный Г. Ахенвалем. Погрузимся в 1881 год. Американский астроном Саймон Ньюком пользовался справочником "Таблицы логарифмов" и заметил, что страницы с логарифмами чисел начинающихся с 1 - затрепанные, а на 9 - девственные. Обьяснение и математическое обоснование было дано аж в 1938 году физиком Фрэнком Бенфордом. Этот частный закон распределения и назвали его именем. Частный - потому что действителен для численных множеств, для которых не было прямого вмешательства человека: вытекающие из наук, природы, социума (см. список в начале). Более строго: для множеств, имеющий экспоненциальный характер роста, т.е. последующие значения зависят от текущего. Как только человеком делаются вставки, замены, ограничения, фильтрация - закон не выполняется. На заглавном фото случайные цифры - для них тоже, они искусственные. Немного детализации. Вероятность первых цифр числа по Бенфорду в %: 1-30,1...2-17,6...3-12,5...4-9,7...5-7,9...6-6,7...7-5,8...8-5,1...9-4,5. Математическая формула довольно сложная (см. WIKI). В заключение несколько любопытных фактов статистики (помимо Бенфорда). Человек, беря одиночные цифры "с потолка", назовёт по убыванию вероятности: 7-6-5-8-9-0-2-4-3-1. Утерянный пульт от TV в 4% случаев оказывается в холодильнике. Вероятность совпадения отпечатков пальцев не нулевая, хотя и малая: 10 в степени -60. Человек при ходьбе выделяет в минуту 1,5 млн. частиц разного рода, сидя - 100 000. И это не из английских учёных - эти сведения нужны при обеспечении чистоты помещений для производства микросхем.