Это устройство называется доска Гальтона и его вживую можно увидеть в московском музее Экспериментаниум. Каждый шарик летит вниз, никогда не двигаясь по прямой, но сталкиваясь с препятствиями и отскакивая от них вправо или влево. В итоге мы видим, что большая часть шариков приземлилась примерно в центре и совсем немного разбежались по краям. Это устройство было изобретено английским учёным Фрэнсисом Гальтоном в 19 веке для демонстрации того, что в статистике называется нормальным законом распределения. Что это такое, и почему шарики падают именно так? Давай объясню!
Следим за руками
Чтобы было проще, давайте посмотрим сначала на фокус с монеткой. Следите за руками. Я подбрасываю монетку и угадываю, какой стороной она упадёт. Какая вероятность увидеть орла, а какая - решку? 50 на 50, вероятность этих событий равна. Хорошо, пусть выпала решка. Теперь я снова бросаю ту же монетку. Какова вероятность орла и решки теперь? Да всё та же, 50/50. Независимо от того, что выпало раньше, вероятность орла и решки в каждом новом броске 50/50. Пока всё просто.
Хорошо, а что произойдёт, если я подкину ту же монетку 20 раз подряд? Сколько орлов и решек я, вероятнее всего, получу? Из рассуждений выше кажется, что равновероятен любой исход - хоть 10 орлов и 10 решек, хоть все 20 орлов. Но опыт подсказывает, что комбинация из 20 орлов встретится гораздо реже. Где подвох? А дело в том, что получить 20 орлов мы можем только одним единственным образом - когда раз за разом монетка будет падать орлом вверх. А вот 10 орлов и 10 решек могут получиться разными способами:
- сначала выпала решка, потом орёл, потом снова решка и т.д.
- сначала выпало 10 решек, затем 10 орлов
- сначала выпало 2 решки, потом 1 орёл, потом снова решка и т.д.
- ...
Всего 184 756 способов!
Отсюда и выходит, что получить 10 орлов и 10 решек куда вероятнее, чем 20 орлов.
А теперь время экспериментов! Подбросим монетку 20 раз и запишем число выпавших орлов. А потом снова подкинем монетку 20 раз и снова запишем, сколько орлов удалось получить. Если повторить такую серию экспериментов довольно много раз, то можно заметить, что серий, когда орлов и решек примерно поровну - много, а когда орлов было 18 или 19, наоборот, мало, но они всё же есть!
И если записать, в скольких экспериментах у нас выпал 1 орёл, в скольких - 2 орла, 3 орла и т.д. , а потом нарисовать это на графике, то получим тот же график в виде колокола, который мы видели раньше.
Нормальное распределение
И здесь мы приходим к нормальному распределению. Мы часто сталкиваемся с ним, когда речь заходит о какой-нибудь "норме". Например, когда читаем, что осадков выпало выше или ниже нормы. Или когда врач говорит, что размер нашей печени в норме.
Говоря просто, нормальное распределение - это такое явление, когда в большом количестве наблюдений есть какое-то популярное значение, которое встречается чаще всего (пик на графике), а есть отклонения, которые встречаются реже. Причем, чем больше отклонение, тем реже оно встречается. Важно, что отклонение может быть как в сторону увеличения, так и в сторону уменьшения.
Где ещё это встречается? Очень много где. Например, вес человека распределён по нормальному закону. Или рост, или характеристики внутренних органов, или другие физические параметры. Срок работы батареек тоже можно описать нормальным распределением.
На графиках ниже распределение роста взрослых женщин (синий график) и мужчин (красный график). Видно, что у женщин средний рост - 164.7 см, то есть женщин примерно такого роста больше всего. А вот рост 157 см или 172 см - встречается реже.
Или возьмём детали, которые производятся на заводе. У них есть заданные параметры, например, диаметр 10 см. Но на деле каждая отдельная деталь может быть немножко больше или немножко меньше этого диаметра, например, 10 ± 0.2 см. И чем больше отклонение, тем реже оно будет встречаться.
Нормальное распределение ещё возникает тогда, когда результат - это сумма большого числа мелких факторов. Например, как в случае с монетками, итоговое число орлов - это сумма нескольких бросков монетки, каждый из которых внёс небольшой вклад.
У нормального распределения есть два параметра:
- Среднее (математическое ожидание) - центральное значение, вокруг которого собирается большинство, пик на графике.
- Среднеквадратическое отклонение - возможный разброс значений, то, насколько далеко наблюдения могут отклоняться от среднего. Чем меньше это отклонение, тем кучнее собраны измерения вокруг среднего, и наоборот. Среднеквадратическое отклонение, возведённое в квадрат, называют дисперсией.
Важность величины среднеквадратичного отклонения можно показать на стрельбе по мишени. На двух мишенях на картинке следы от попаданий имеют одно среднее - центр мишени. Но слева точки лежат кучнее, отклонение меньше. А справа - больше.
А что с шариками на гифке?
А с ними всё так же, как с монетками в самом первом примере. Когда шарик ударяется о препятствие, он может отпрыгнуть вправо или влево (орёл или решка). Мы уже знаем, что, подкидывая монетку несколько раз, вероятнее всего получишь последовательность с примерно равным числом орлов и решек. А с шариком по такой логике вероятнее всего получишь путь, где число правых и левых поворотов примерно одинаково. Вот большая часть и приземляется примерно в центре: левые и правые повороты друг друга компенсируют. Но не всегда! И какая-то часть шариков всё равно улетает на правый и левый края доски.
На самом деле, и в эксперименте с доской Гальтона, и с монетками, мы видим не совсем нормальное распределение. То, что здесь происходит, называется биномиальным законом распределения, но при достаточно большом количестве наблюдений он становится почти не отличимым от нормального. Впрочем, об этом и других видах распределений можем поговорить в следующий раз, если будет интересно. А их существует немало: биномиальное, которое я уже упомянула, равномерное, распределение Бернулли и много других. Дайти знать, если интересно, что это за фантастические твари и где они обитают!
На этом у меня всё. Если остались вопросы, или есть темы из математики и статистики, про которые вы ещё хотели бы прочесть, напишите в комментарии.