Был у нас недавно материал о строгих определениях. "Веревка есть версие простое", и вот зачем это всё. А вот зачем.
На заре теории вероятностей само понятие вероятности было "всем понятно, но определения нет". Предел частоты, но что за предел? В каком смысле? Как быстро сходится? Мы кидаем кубик шесть тысяч раз и примерно тысячу раз должна быть шестерка; но именно тысячу она не покажется, а сколько надо?
"Число благоприятных исходов делить на число всех исходов" — основано на понятии равновероятности, что уже смахивает на сказку про белого бычка.
Нет, так можно: определить равновероятность на основе симметрии и через нее определить вероятность; но это очень узкий класс задач, куда, например, несимметричная монета или засвинцованный кубик не попадают.
Это позволяло добиться определенных успехов и развить теорию, но она уперлась в стену. Снес стену Колмогоров, и история эта поучительна. То, что он придумал, позволило доказывать теоремы и строить теории, получать результаты и делать предсказания, но совершенно непонятно, что же связывает теорию меры на абстрактных пространствах с реальностью. Не те же равновероятные исходы и предел частоты. Или...
Похожая ситуация с вещественными числами. Чтобы орудовать с дробями, нам понадобилось... много чего, и в итоге получилась числовая прямая. Числа стали изображаться отрезками, и всё встало на свои места. Хотя вопросы, поставленные еще древними греками, так до конца и не разрешились: континуум точек, он из точек состоит или он их содержит?
Итак, Колмогоров определил вероятность как меру на некоторой системе подмножеств какого-то вероятностного пространства: любого множества, элементы которого называются элементарными исходами. Множества изображают события, а мера (аналог площади) — вероятность этих событий. В отличие от площади, вероятностная мера нормирована (вероятность объединения вообще всего пространства равна 1) и не сохраняется при движениях.
На жаргоне математиков вероятностное пространство иногда назывют просто "омегой". Потому что его обозначают заглавной буквой омега: Ω.
От системы множеств-событий требуют простых свойств: туда должно входить пустое множество и "само пространство", и там можно множества объединять, пересекать и дополнять, получая множества из этого же семейства.
Такая система подмножеств называется сигма-алгеброй, а действия над множествами обретают логический смысл: объединение есть ИЛИ, то есть событие, при которое произошло хотя бы одно из двух (или, на языке множеств, если удалось попасть хотя бы в одно из двух); пересечение — это И (произошли оба сразу, попали в оба сразу), дополнение как множество элементов, в данное множество не входящих — НЕ (событие не произошло, во множество не попали).
В общем-то, в простых случаях можно брать просто все подмножества.
Минимальная сигма-алгебра содержит только само пространство (достоверное событие, выбирая наугад точку из множества, мы всегда получим точку из него) и пустое множество (невозможное событие: какую бы точку мы не вытянули, в пустом множестве ее не будет). Этот случай отвечает отсутствию случайности: произойдёт вот это, и это точно. Например, вертикально стоящая палка упадет; куда именно - это вопрос, но что упадет - это точно; совокупность углов и будет омегой, и сигма-алегбра тривиальная. Конечно, если мы не интересуемся вариантами: в этом случае сигма-алгебра будет более сложной.
Давайте простой пример. Вот есть у нас просто два множества (или просто каких-то объекта) А и В, и всё. Это "пространство", множество, содержащее эти два объекта: {A,B}. Все его подмножества включаем в сигма-агебру: это пустое {}, {A}, {B} и само пространство. Меру зададим просто: P(A)=P(B)=½.
Это "монетка". Множество А, что бы оно из себя не представляло, это "орёл", а В это "решка".
Вероятности могут быть и не равны: это "кривая" монетка.
Давайте усложним интригу, и возьмем множество из шести элементов. Подмножеств у него будет 64: пустое, шесть одноэлементных подмножеств, 15 пар, 20 троек, 15 четверок, 6 пятерок, одно само пространство из всех шести элементов. Задав на элементах (их называют атомами) меру, например по ⅙, получим игральный кубик. Мера-вероятность остальных событий, например "не шестерка, но больше трех" получается по правилам: суммой входящих в множество-событие атомов. Например, указанное выше событие имеет вероятность ⅓, так как оно имеет вид {4,5}.
Третий пример. События будут такие: "четное" с вероятностью ½, и "нечетное" с той же вероятностью, но это не всё: ещё будет "большое" и "малое" с теми же вероятностями, и еще "острое" и "круглое", с вероятностями ⅓ и ⅔.
Что же это?
Это тоже кубик, только задан иначе. Этот пример показывает, что не обязательно заходить через какие-то базовые события-исходы. Мы описали кубик не через шесть граней, как в первый раз, а через четность грани (1-3-5 или 4-5-6), разделили все грани на малые (1-2-3) и большие (4-5-6) и выделили острые числа (1 и 4, просто цифры выглядят как булавки) и круглые (2,3,5,6). В итоге что на кубике не рисуй, а зная, что выпало четное большое круглое, мы понимаем, что это 6, а если нечетное малое острое, то это 1. А четное малое острое имеет вероятность нуль.
Можно взять натуральные числа от 1 до бесконечности и это будет пространство. Сигма-алгебра — все подмножества. Их, конечно, бесконечно много, и даже не просто бесконечно, но континуально много. Но меру можно задать на отдельных числах (атомарно), например по формуле геометрического распределения. Или как хотите еще, лишь бы сумма — ряд — сходилась к единице. Тогда любое подмножество будет иметь конечную меру между нулем и единицей. И всё будет.
Зачем же вообще запутывать себя сигма-алгебрами, если можно просто брать все подмножества множества исходов, как угодно задаваемых?
Причин две.
Во-первых, в континуальном случае все подмножества брать нельзя: среди них есть неизмеримые. Парадокс Банаха-Тарского как пример.
Во-вторых, не всегда понятно, как на них задать меру, потому что "просто сумма" не всегда подойдет. Атомарная мера — мера на отдельных точках — хороша для карт и костей, где и так неплохо выкручивались, а вот в общем случае мера (как и обычная площадь) присуща множествам, состоящим из точек, но сами точки имеют нулевую меру.
Вот пример. Возьмем два отрезка, например [-42,0] и [0,666]. Присвоим им меру ½. Образуем минимальную сигма-алгебру, которая возможна, при условии, что эти два отрезка в нее входят.
Там будет "всё пространство", то есть отрезок [-42,666]; упомянутые два отрезка; их пересечение, то есть точка 0; дополнения, то есть полуинтервалы [-42,0) и (0,666], а также их объединение.
Вроде как получилось многовато всего, но у точки нуль мера (вероятность) получается нулевая, а полуинтервалы от отрезков по сути и не отличаются.
То есть это та же монетка, только орел и решка по каким-то причинам изображены отрезками. Зато есть событие "точка 0", которое можно трактовать как "и орел, и решка" — оно невозможно, вероятность его нуль, но это, например, событие "на ребро встанет", и ему можно при случае (в другой задаче) и вероятность приписать.
Теперь понятно, что в ходе эволюции системы, например во времени, сигма-алгебра может меняться: обогащаться множествами или, напротив, их может становиться меньше.
Само по себе понятие меры тоже полезно, но для вычислений нам нужны функции на вероятностных пространствах: случайные величины. Случайной величиной называется не всякая функция на пространстве, а только измеримая.
Напомню, что измеримая функция — это такая, что прообразы отрезков измеримы. Функция сопоставляет элементам пространства числа. Исходы, элементы пространства — это что угодно, но там есть события (множества, которые образуют сигма-алгебру).
Прообразом отрезка называется множество, значения функции на котором целиком попадают в отрезок. Например, у функции ax прообразом любого отрезка [c,d] окажется отрезок [c/a,d/a]. То есть, чтобы линейная функция была измерима, измеримы должны быть все отрезки.
Если прообразы всех отрезков измеримы, то можно считать интегралы. И интеграл функции по множеству является средним значением случайной величины по этому множеству. Это позволяет вычислять вероятности, средние значения, дисперсии, медианы и все прочее, что изучается в теории вероятностей. При этом природа тех исходов, на которых задана случайная величина, роли не играет: это грани кубика или стороны монетки, люди или эксперименты, лошади или звезды. Главное, что задана мера на отдельных исходах или множествах таких исходов (если это точки).
Ну и давайте посмотрим, какие функции измеримы на последнем примере (с отрезками). Какой бы мы не выбрали отрезок на оси у, его прообраз должен совпасть с одним из множеств сигма-алгебры (а их там не так много). В итоге функция принимает постоянное значение на полуинтервале [-42,0), это же или другое значение на полуинтервале (0,666] и третье значение (которое может совпадать, а может и не совпадать с двумя другими) в точке 0.
Причем значение в нуле роли не играет, так как оно в любом случае будет умножено на нулевую меру этой точки. В итоге имеем только значения, приписанные "орлу" и "решке", и только им.
И вы можете заметить, что совершенно неважно, какими множествами изображено множество исходов монетки. Важно, что на сигма-алгебре событий задана мера, а на пространстве (чем бы оно не было) заданы измеримые функции. Если "орел" и "решка" не просто "точки", а отрезки или какие-то сложные множества, то запас измеримых функций все равно будет такой, как если бы орел и решка были просто какими-то точками. В этом случае весь запас функция — это таблички, приписывающие орлу одно число и решке — другое. Они измеримы.
Зато если понадобится расширить запас событий и, соответственно, измеримых функций, это предельно легко сделать в рамках прежней идеологии.
И — это особенно ценно — можно записывать формулы единообразно для любых случайных величин, не сортируя их на дискретные, абсолютно непрерывные, сингулярные и смешанные.
Но про это уже в следующий раз.