Представьте: середина XVII века, чума опустошает города и деревни, а один лондонский торговец сукном сидит над списками мертвецов и начинает их... считать. Не от горя. Из любопытства. И именно в этот момент рождается наука, которая сегодня управляет вашей страховкой, предсказывает выборы и решает, дадут ли вам кредит.
История статистики – это не скучный учебник с формулами. Это детектив, в котором главные герои играли в кости, спорили на деньги и случайно спасали миллионы жизней.
Джон Граунт и списки мертвых: как всё начиналось
Джон Граунт не был учёным. Он торговал тканями на лондонском рынке и числился в гильдии суконщиков. Но в 1662 году он опубликовал книгу «Естественные и политические наблюдения над списками смертности» и перевернул представление о том, что вообще можно узнать из цифр.
Лондон тогда вёл учёт смертей с 1603 года – церковные служащие фиксировали каждую кончину, чтобы вовремя заметить вспышку чумы. Граунт взял эти скучные таблички и задал им неудобные вопросы. Почему в городе умирает больше мужчин, чем женщин? Почему дети до пяти лет составляют треть всех смертей? Почему одни болезни идут волнами, а другие – равномерно?
Малоизвестный факт: Граунт первым установил, что мальчиков рождается чуть больше, чем девочек – примерно 14 к 13. Это соотношение держится по всему миру до сих пор, и биологи объясняют его лишь частично. Но в 1662 году это было просто наблюдение человека, которому не лень было складывать столбцы цифр.
Граунт сделал ещё одну вещь, о которой мало кто вспоминает. Он построил первую в истории таблицу выживаемости – грубую, с ошибками, но таблицу. Из 100 новорождённых до 6 лет доживало, по его подсчётам, 64 человека. До 16 лет – 40. До 46 лет – лишь 10. Это была заготовка для актуарной математики, на которой стоит весь страховой бизнес планеты.
Его приняли в Королевское общество – главный научный клуб Англии того времени. Король Карл II лично настоял на этом, хотя члены общества морщились: торговец, не латинист, откуда взялся. Но цифры говорили сами за себя.
Азартные игры как двигатель науки
Если Граунт смотрел на смерть, то другие отцы статистики смотрели на игральные кости и видели в них нечто большее, чем удачу.
В 1654 году французский математик Блез Паскаль получил письмо от шевалье де Мере – азартного игрока и светского человека, который никак не мог понять одну задачу. Два игрока начали партию, но вынуждены прервать её на середине. Как справедливо поделить ставку, если неизвестно, кто бы выиграл?
Паскаль написал Пьеру де Ферма. Началась переписка, которую историки математики называют рождением теории вероятностей. Два гения обменивались письмами, спорили о методах и за несколько месяцев создали математический аппарат, которым пользуется весь мир.
Вот что поражает: задача была о деньгах и азарте. Никакого «служения науке». Де Мере просто хотел знать, не облапошивают ли его партнёры по игре. И именно эта практическая жадность дала толчок к одному из величайших математических открытий.
Малоизвестный факт: де Мере сформулировал Паскалю ещё одну задачу, в которой был уверен, что знает ответ. Он думал, что выпадение хотя бы одной шестёрки за 24 броска двух кубиков – выгодная ставка. Паскаль доказал: нет, невыгодная. Вероятность ровно 49,14%. Де Мере проигрывал годами, даже не понимая почему. После этого разговора перестал.
Якоб Бернулли, швейцарский математик, пошёл дальше. В 1713 году вышел его посмертный труд «Искусство предположений», где он доказал закон больших чисел: чем больше опытов, тем точнее среднее значение приближается к реальной вероятности. Это звучит банально, но только потому, что мы уже живём в мире, где эта идея встроена во всё: от опросов общественного мнения до клинических испытаний лекарств.
Бернулли не дожил до публикации. Книгу выпустил его племянник Николас. Якоб провёл над ней двадцать лет и так и не решил, готова ли она к печати. Перфекционизм, знакомый каждому, кто хоть раз откладывал важное дело.
Гаусс, нормальное распределение и колокол над нашими головами
Есть одна кривая, которую вы видите везде, даже если не знаете её имени. Колоколообразная кривая нормального распределения. Рост людей, ошибки измерений, результаты тестов, цены на рынке – всё это стремится к ней.
Карл Фридрих Гаусс открыл её свойства в начале XIX века, работая над астрономическими наблюдениями. Астрономы тогда мучились: каждый раз, когда они измеряли положение звезды, получались чуть разные цифры. Какому результату верить? Гаусс показал: ошибки измерений не случайны в том смысле, что они хаотичны – они подчиняются закону. Большие ошибки редки, малые – часты. И если взять среднее из многих измерений, получится значение, ближайшее к истине.
Это был переворот. Раньше учёные просто выбирали «лучшее» наблюдение – то, которому больше доверяли. Гаусс сказал: нет, надо брать все и усреднять. Метод наименьших квадратов, который он разработал, используется сегодня буквально в каждом статистическом пакете на планете.
Малоизвестный факт: за первенство в открытии метода наименьших квадратов Гаусс яростно спорил с французом Адриеном-Мари Лежандром. Лежандр опубликовал метод первым в 1805 году. Гаусс заявил, что пользовался им с 1795 года, но не публиковал. Лежандр был в ярости. Этот спор о приоритете – один из самых ожесточённых в истории математики. Кто прав? Скорее всего, Гаусс не врал. Но и Лежандр не заслужил, чтобы его вычеркнули из учебников.
Нормальное распределение имеет одно коварное свойство, о котором часто забывают. Оно хорошо описывает природные явления, но плохо описывает финансовые рынки. Там хвосты «жирнее»: экстремальные события случаются чаще, чем предсказывает колокол. Именно это стало одной из причин финансового кризиса 2008 года – банки использовали модели, основанные на нормальном распределении, и не ожидали, что «невозможные» события произойдут так быстро и так разрушительно.
От переписей к Big Data: статистика становится властью
В XIX веке государства поняли простую вещь: кто считает народ, тот им управляет. Переписи населения превратились из редкого административного упражнения в регулярный инструмент власти.
Адольф Кетле, бельгийский астроном и статистик, первым применил гауссовский подход к людям. Он измерял рост и вес тысяч солдат и обнаружил: люди тоже укладываются в нормальное распределение. Из этого он вывел концепцию «среднего человека» (l'homme moyen) некоего статистического идеала, вокруг которого колеблется реальность.
Идея была соблазнительна и опасна одновременно. С одной стороны, она позволяла планировать: сколько нужно обуви разных размеров, сколько кроватей в больницах, сколько мест в школах. С другой – она приучала думать об усреднённом человеке как о норме, а об отклонениях, как о проблеме. Этот сдвиг в мышлении имел последствия, которые мы расхлёбываем до сих пор.
Флоренс Найтингейл была блестящим статистиком. Она придумала так называемую «розу Найтингейл» – полярную диаграмму, которая наглядно показывала: британские солдаты в Крымской войне умирают не от ран, а от инфекций в грязных госпиталях. Она принесла эту диаграмму в британский парламент и добилась реформы военной медицины. Это, пожалуй, первый случай в истории, когда визуализация данных изменила государственную политику.
К концу XX века статистика перестала быть инструментом только учёных и чиновников. Она стала языком бизнеса, медицины, спорта, политики. Билл Джеймс в 1970-х начал анализировать бейсбол через цифры и через тридцать лет его метод изменил все профессиональные лиги Америки. Нассим Талеб написал «Чёрного лебедя» и напомнил: статистика умеет описывать прошлое, но редкие непредвиденные события выбиваются из любых моделей.
Сегодня алгоритмы на основе статистических методов решают, какую рекламу вы увидите, получите ли вы ипотеку и насколько высок ваш «социальный рейтинг» в той или иной системе. Граунт считал мертвецов вручную – его духовные наследники считают ваши клики в реальном времени.
Что из этого следует: пять вещей, которые меняют взгляд на мир
Статистика – не магия и не ложь, хотя умелые манипуляторы делают из неё и то, и другое. Вот несколько выводов, которые стоит держать в голове.
Корреляция не равна причинно-следственной связи. Это банально, но люди продолжают путать одно с другим. В странах с большим количеством кинотеатров на душу населения ниже смертность от сердечно-сосудистых заболеваний. Кино лечит? Нет, просто обе цифры отражают уровень благосостояния.
Маленькая выборка врёт. Три случая рака в одном квартале – это ужас и повод для расследования или просто случайность? Чаще второе. Мозг видит паттерн там, где его нет – это эволюционная привычка, полезная в саванне и опасная при чтении новостей.
Среднее скрывает больше, чем показывает. Средняя зарплата по региону – почти бессмысленная цифра, если не знать разброса. Билл Гейтс заходит в бар и средний доход посетителей вырастает в сотни раз. Медиана честнее.
Редкие события происходят чаще, чем мы думаем. Это парадокс Дня рождения: в группе из 23 человек вероятность, что у двоих совпадёт день и месяц рождения, превышает 50%. Большинство людей называют число сильно завышенным. Интуиция плохо считает вероятности.
Данные без контекста – оружие. Любую цифру можно использовать для поддержки почти любого тезиса, если правильно выбрать временной период, масштаб и базу сравнения. Когда вы видите впечатляющую статистику – первый вопрос: кто её считал и зачем.
Граунт умер в 1674 году, разорившись после Великого лондонского пожара. Его книга пережила его на века. Паскаль бросил математику в 31 год – ушёл в религию и больше не вернулся к числам. Гаусс до конца жизни откладывал публикации, боясь критики.
Все они были людьми с причудами, слабостями и не самыми чистыми мотивами. И тем не менее построили фундамент, на котором стоит современная медицина, экономика и наука о данных.
А вот вам вопрос напоследок: если бы у вас была возможность узнать статистическую вероятность ключевых событий вашей жизни, вы бы хотели это знать? Или некоторые вещи лучше оставить за пределами колоколообразной кривой?
Пишу об истории так, как её не преподавали в школе. На канале таких историй много. Подписывайтесь, чтобы не пропустить следующую.