Дисклеймер: см. любую другую заумную статью вроде "Парадокса Монти Холла" или статей про путешествия во времени. В создании этого текста прошу винить Даниэля Канемана и его "Thinking fast and slow", а также "Несовершенную случайность" Леонарда Млодинова - они слишком интересно пишут, поэтому я не могу удержаться от желания поделиться хотя бы частью их мыслей, замаскированных под мои.
Я человек очень ленивый, поэтому вместо того чтоб изобретать велосипед и создавать новое вступление, я скопирую его из уже упомянутой статьи по Монти Холлу:
Теория вероятностей, как и теория игр, как и практически любая наука, где присутствует слово "теория", подразумевает огромное количество материала, большая часть которого не предназначена для неискушенных людей со здоровой психикой. Но на поверхности этого айсберга есть куча хайповых тем, которые не задействуют каких-то сложных материалов (собственно, первый закон популярности околонаучных вещей - их должен быть в состоянии понять среднестатистический человек) и при этом звучат эффектно, умно и зачастую неочевидно. Ну а раз так, грех не проходиться время от времени по верхам, собирая всё самое крутозвучащее и набивая таким образом кучу просмотров и комментариев (ну пожалуйста...)
Собственно закон
Ну и как обычно всё веселье начинается в моменте, когда люди начинают задаваться вопросами из разряда философии.
В данном конкретном случае, задаются вопросом, что вообще такое пресловутая вероятность. К примеру, что означает фраза "Вероятность выпадения орла на идеальной монете равна 1/2"? Не означает же это, что из двух подбрасываний монетки я гарантированно получу одного орла. Тогда как вообще понять, что эта вероятность действительно 1/2, а не 443/999 или любая другая дробь, которую я вот прямо сейчас могу выдумать? Короче говоря, почему математики опять выдумали какую-то чушь, а я обязан кивать с умным видом, будто бы это сильно полезно?
На последний вопрос у человечества ответа нет, зато на первые два в некотором смысле и отвечает закон больших чисел. Я, конечно же, не буду приводить всякие страшные формулировки, потому что слова вроде "математическое ожидание", "сходимость выборки" и прочие такие штуки мягко говоря не способствуют улучшению читаемости, поэтому определим это всё менее страшным образом (иными словами, научпоп определения, не несущие в себе математической строгости, вперде):
Говоря максимально неформальным языком, закон больших чисел утверждает, что с увеличением выборки уменьшается отклонение практически выведенного среднего от теоретического
Это всё ещё звучит очень абстрактно и непонятно, но с этим уже можно работать, и лучше всего на конкретных примерах.
Эх раз, да ещё раз...
Жил был южноафриканский математик по имени Джон Керрич, которому не повезло оказаться в плохом месте в плохое время - в Копенгагене в апреле 1940го года, когда Данию захватили немцы. Казалось бы, быть военнопленным - очень сомнительное удовольствие, но математики склонны из любой ситуации извлекать пользу, поэтому Керрич развлекался довольно экзотическим образом - бросал монетку. Десять (10 (ten!) ) тысяч раз.
После ста бросков орлы выпали 44 раза, что, как не сложно посчитать, дает лишь 44% от обещанных 50(все данные взяты из любимейшего Млодинова) . Казалось бы всё, обман тысячелетия, орлы не выпадают сколько надо раз. Но после всех десяти (10, черт побери) тысяч бросков орел в процентом соотношении появился в 50,67% бросков, что уже гораздо ближе к правде и устраивать бунт из-за 0,67% уже не звучит адекватной идеей.
В этом и заключается суть закона больших чисел. Больше экспериментов - ближе к теоретическому результату. Очень много экспериментов - очень муторно близко к теории. Именно поэтому для любых исследований нужно брать достаточно большую выборку. Если три ребенка бегло говорят на испанском в четыре года, это не значит что большинство детей занимаются тем же.
Закон малых чисел
Если вы ждете формулировку, то зря, потому что её нет, как и такого закона.
Этот термин был придуман специально, чтобы передавать склонность людей перекладывать закон больших чисел на маленькие выборки - будь то оценка того, скольких студентов нужно добровольно-принудительно отправить проходить эксперимент, чтоб получить достоверный средний результат, или же иллюзия того, что после трех орлов с большей вероятностью выпадет решка. Из такой склонности вытекают многие заблуждения, в том числе и ошибка игрока, но о ней в конце, а пока ещё один пример, на этот раз из Канемана (да, я плагиачу как могу, и что вы мне сделаете. В жизни не поверю, что многие будут читать кирпич на 600 страниц, так что я считаю себя вполне вправе раздербанить его на кул стори).
Рак почек и американские школьники
В каком-то году кем-то там где-то в США проводилось исследование, согласно которому самый низкий уровень заболеваемости раком почек был обнаружен в сельских округах с маленьким населением. Очень сильно хочется закричать, мол вон, экология там лучше, здоровую пищу едят, а не все эти ваши фастфуды, но самое забавное ещё впереди. Самый высокий уровень заболеваемости раком почек был в других округах, но всё таких же сельских и всё таких же малонаселенных.
Если отмести версии об облучении вышками 5G или инопланетных диверсиях, остается одно логичное объяснение - непосредственно малонаселенность этих округов. Предположим, есть какое-то среднее значение болеющих раком почек по стране. Опустим всякие сложности и примем его за теоретически истинное среднее. Тогда, согласно закону больших чисел, в каком-нибудь Нью-Йорке локальное среднее значение будет очень близким к теоретическому. Но в сельских округах на четыреста километров вокруг два человека и то один из них уже мертв, так что по сравнению с общим населением такую выборку большой назвать никак нельзя. А чем меньше выборка, тем больше вероятность получить крайние значения - если вы бросаете монетку один раз, вероятность выпадения всех орлов очевидно гораздо больше, чем если бросить ту же монетку 100500 раз. То есть разгадка не в экологии и не в пришельцах, а в том, что людей для статистики банально меньше.
Второй пример про американских школьников максимально идентичен. Какие-то фонды собирали статистику относительно самых преуспевающих школ и абсолютно внезапно, конечно, выявили закономерность о том, что в небольшие школы гораздо чаще попадают в список лучших. На основе этого исследования была создана куча маленьких школ, некоторые даже переформированы из более больших. Но мы то теперь умнее американских статистиков и понимаем, в чем тут дело - меньше выборка, больше вероятность получить крайнее значение и всё такое прочее.
Finally, ошибка игрока
Ну и после всего, что было выше, ошибка игрока должна показаться максимально очевидной. Я не вижу ваших глаз, но знаю, что в них сейчас горит немой вопрос: "Что же это за ошибка такая?! Пожалуйста, расскажи нам!" (ну или я с каким-то своим сном путаю, где любое моё слово откровение для людей, черт знает). Так вот, ошибка игрока - заблуждение, связанное с желанием людей связан два независимых события при оценке вероятности. Иными словами, любое "мне так много везло, что теперь обязательно должно не повезти", "орел выпал уже 99 раз подряд, очевидно сейчас будет решка" и "черт побери, красное выпало 10 раз подряд! Ставлю четыреста тысяч и своих детей на черное, оно должно выпасть очень скоро!", всё это ошибки игрока, непосредственно связанные с (ложным, напоминаю) законом малых чисел - людям кажется, что раз вероятность выпадения орла 1/2, то выпадение многих решек подряд интуитивно делает орла более вероятным, мол "он должен выпасть для сохранения вероятности". Проблема такой логики непосредственно в том, что вероятность никому ничего не должна на малых выборках. Единственное, где она ведет себя относительно предсказуемо - на бесконечно большой выборке.
На этом на сегодня всё, спасибо за внимание, надеюсь вероятность того, что вы захлебнулись в воде, равна нулю.