Продолжим разговор о нормальности с точки зрения математики, начатый в прошлой статье
Можно ли вообще ставить вопрос о соответствии какой-то норме, не пытаемся ли мы при этом оценивать и сравнивать? Вы спросите: что же в этом плохого? Мы всё время кого-нибудь с кем-нибудь сравниваем, чаще всего себя с другими, но иногда позволяем себе оценить и кого-нибудь ещё. Однако с точки зрения математики всё не так просто. Чтобы сравнивать что-либо с чем-либо, нужно правильно определить отношение порядка или ввести метрику.
Определить отношение порядка — значит обозначить, что один элемент некоего множества в каком-то смысле предшествует другому. Этому мы научились еще в школе: 2 меньше 20, слон слабее кита, уговор дороже денег и т. п. Но вот вам ряд вопросов. Что идёт раньше — понедельник или вторник? А воскресенье или понедельник? А какое воскресенье — то, что перед понедельником, или то, которое после субботы? А какое комплексное число больше: 2 + 3i или 3 + 2i? Мы можем назвать по порядку цвета радуги и даже ассоциировать все промежуточные цвета с вещественным числом — частотой света. Но кроме этих цветов существует множество неспектральных. Они образуют хорошо знакомое типографам и дизайнерам цветовое пространство, в котором каждый цвет имеет три «координаты». Так можно ли все видимые глазом цвета выстроить по порядку?
Эти примеры показывают, что с отношением порядка бывают трудности. Например, для отношения «один день недели наступает после другого» не работает свойство транзитивности (из того, что воскресенье наступает позже четверга, а четверг — позже понедельника, не следует, что воскресенье всегда наступает позже понедельника), так же как не транзитивно отношение «сильнее» в игре «камень-ножницы-бумага». Попытка ввести понятие больше/меньше на поле комплексных чисел не согласуется с арифметикой этих чисел, а цвета, которые можно параметризовать тремя «координатами» (тон, насыщенность, яркость), обладают обоими этими недостатками: и отсутствием транзитивности для тона — своеобразной «угловой» характеристики цвета, которая зациклена подобно дням недели; и существенной многомерностью. Даже на привычном нам множестве рациональных чисел отношение порядка хоть и определено, но не дает возможности указать наименьшее или наибольшее число на каком-либо открытом интервале.
Итак, мы видим, что отношение порядка вовсе не так просто, как мы привыкли думать, а главное — не универсально. Но мы всё-таки можем сравнивать людей, книги, блюда, языки программирования и прочие объекты, имеющие множество параметров, пусть даже условно формализуемых? Можем, используя вместо сравнения другую концепцию — степень подобия объектов между собой, или метрику. Фильмы про Индиану Джонса ближе к «Пиратам Карибского моря», чем к комедиям Вуди Аллена или документалистике. Русский язык ближе к польскому, чем к немецкому, и совсем не похож на суахили. Числа 2+3i или 3+2i ближе друг к другу, чем к числу 100. Если мера обобщает размеры (длину, объём и т. д.), то метрика, введённая в математику Морисом Фреше в 1906 году, — это обобщение понятия «расстояние». Вот её определение.
Пусть имеется произвольное множество X. Метрика — функция ρ, сопоставляющая любым двум элементам x и y множества вещественное число ρ(x, y) и при этом удовлетворяющая таким условиям:
1) ρ(x, y) = 0 тогда и только тогда, когда x = y (аксиома тождества: расстояние между точками равно нулю, если эти точки совпадают);
2) ρ(x, y) = ρ(y, x) (аксиома симметрии: расстояние в обе стороны одинаково);
3) ρ(x, z) ≤ ρ(x, y) + ρ(y, z) (неравенство треугольника — аналог знакомого утверждения из курса геометрии: окружной путь не может быть короче прямого).
Множество X с введённой метрикой называется метрическим пространством. Из приведённых аксиом следует, что метрика — неотрицательная функция.
Понятие метрики позволяет вводить аналог расстояния (или степени близости) в совсем неочевидных случаях, например на бесконечномерном пространстве функций, между строками текста или изображениями; наконец, между распределениями случайных величин. Введение метрики не решает всех проблем, но в отсутствие внятной и корректной метрики легко увязнуть в бесконечном, бурном и бессмысленном споре, который в околокомпьютерной среде известен как «холивар» (от англ. holy war — священная война). Увы, жаркие споры возникают чаще всего уже на этапе выбора метрик, поскольку они сами образуют некое множество, на котором тоже нужно определять отношение порядка «лучше/хуже». Впрочем, можно предложить вполне осмысленный способ рассуждений о сравнимости многомерных объектов, например людей.
В многомерном пространстве параметров каждый объект может быть представлен вектором — формальным набором чисел, определяющих значения критериев, которые его характеризуют. Рассматривая ансамбль векторов (например, человеческое общество), мы увидим, что какие-то из них окажутся сонаправлены или по крайней мере близки по направлениям; вот их-то уже вполне можно сравнивать по длине. В то же время какие-то векторы ортогональны (в геометрическом смысле — перпендикулярны, в более широком — независимы), и соответствующие им люди попросту друг другу непонятны: они по ряду параметров в сопряжённых пространствах, как пресловутые физики и лирики. Нет смысла рассуждать о том, что хороший поэт в чем-то лучше либо хуже талантливого инженера или одарённого спортсмена. Единственное, о чём можно судить, — о длине вектора, то есть степени одарённости, расстоянии от среднего.
В связи с этим может возникнуть любопытный вопрос ищ области теории вероятностей: а какая доля случайных векторов в пространстве заданной размерности будет сонаправленной, а какая ортогональной? Как много удастся найти единомышленников или хотя бы тех, с кем можно себя сравнить?
В двумерном мире каждому вектору соответствует одномерное пространство коллинеарных (сонаправленных) и одномерное пространство ортогональных векторов. Если мы рассмотрим «почти» сонаправленные и «почти» ортогональные векторы, то они образуют секторы одинаковой меры (неважно, площади или угла) при одинаковом выборе допустимого отклонения. Иначе говоря, похожих и непохожих объектов при рассмотрении двух критериев будет одинаковое количество (под количеством мы опять понимаем меру на множестве этих критериев).
В трёхмерном мире картина поменяется. Сонаправленные векторы всё так же образуют одномерное пространство, а вот ортогональные уже заполняют плоскость, то есть, двумерное пространство. С точки зрения ортогональных векторов мера сонаправленных уже равна нулю, но все же позволим векторам немного отклониться от курса. Фиксируя их длину R и допуская небольшое отклонение от идеальных направлений на угол Δφ, можно количество почти сонаправленных векторов сопоставить с площадью круговых областей вокруг полюсов 2πR²Δφ², а число почти ортогональных — с площадью полосы вокруг экватора: 4πR²Δφ. Их отношение 2/Δφ растёт неограниченно при уменьшении отклонения Δφ.
В четырёхмерном мире ортогональные векторы образуют уже трёхмерное подпространство, тогда как сонаправленные всё еще лежат в одномерном, и разница в их количестве растёт уже пропорционально квадрату отклонения от идеала. Но на этом этапе лучше обратиться к теории вероятностей и выяснить, каковы шансы получить ортогональные или сонаправленные векторы, взяв наугад два вектора из пространства размерности m. Об этом нам расскажет распределение углов между случайными векторами, показанное на рисунке.
К счастью, рассуждая о площадях многомерных сфер, распределение можно вычислить аналитически и даже представить в конечной форме:
Здесь Γ(x) — гамма-функция, обобщение факториала на вещественные (и даже комплексные) числа. Ее основное свойство: Γ(x + 1) = x Γ(x).
Для двумерного пространства углы распределяются равномерно, для трёхмерного — пропорционально синусоидальной функции. Свойства синуса приводят к тому, что плотность вероятности в нуле для m > 2 в точности равна нулю. Это согласуется с нашими рассуждениями о том, что сонаправленные векторы образуют множества нулевой меры. Для всех размерностей выше двух мода распределения приходится на 90°, и доля взаимно ортогональных векторов увеличивается по мере роста числа параметров. Самое же главное наблюдение — сонаправленных векторов (имеющих угол около 0° или 180°) практически не остается при достаточно высокой размерности пространства. Если считать более или менее похожими (сонаправленными, сравнимыми) векторы, имеющие угол менее 30°, то при сравнении по двум критериям похожей на какой-то выделенный вектор окажется треть всех случайных векторов, а при увеличении размерности пространства на единицу доля сравнимых векторов будет уменьшаться практически вдвое. Таким образом, мы приходим к векторной формулировке закона арбузной корки:
В пространствах высокой размерности почти все векторы ортогональны друг другу.
Или эквивалентно: на вкус и цвет товарищей нет.
Этот странный закольцованный мир
По мере повышения размерности распределение углов становится похожим на нормальное. Однако это не оно, несмотря на характерную колоколообразную форму. Нормальное распределение определено для всей вещественной числовой оси, в нашем же случае значение угла зациклено в пределах от 0 до 180°. Мы попали из поля вещественных чисел на кольцо вычетов — математическую структуру, подобную циферблату на часах, дням недели или остаткам от деления. Применяя привычные нам операции в этом кольцевом мире, нужно быть аккуратным, даже выполняя простые расчёты.
Скажем, чему равно среднее значение для двух углов: 30° и 350°? Простое сложение даст ответ 190°, тогда как простейший чертёж покажет, что правильным ответом будет 10°. А чему равно среднее значение равномерного распределения на всей окружности? Оно не определено, хотя площадь под кривой распределения конечна. Даже простое вычисление среднего для набора измеренных углов уже становится нетривиальной задачей, требующей перехода на плоскость (декартову или комплексную). Представьте себе, что вы исследуете зависимость числа обращений граждан в полицию от времени суток и получили гистограмму, показанную на рисунке слева:
Попытка вычислить математическое ожидание для самого неспокойного времени с помощью среднего арифметического даст невнятный результат. Он показан на рисунке вертикальной линией. Правильно будет изобразить нашу гистограмму в полярных координатах и там уже найти математическое ожидание, вычислив угловую координату положения центра масс получившейся фигуры. Её можно визуализировать, построив из центра координат луч, проходящий через центр масс.
Привычные распределения вероятностей с хорошо известными свойствами на кольцах вычетов «зацикливаются» и становятся своеобразными. На рисунке внизу показано, как можно построить аналоги некоторых распределений на окружности. Числовая ось как бы наматывается на окружность, при этом каждый слой спирали суммируется, и в результате мы получаем циклический аналог распределения, имеющий единичную площадь.
Например, циклическое экспоненциальное распределение описывает случайное положительное отклонение от заданного угла с заданным средним значением. С его помощью можно описать время суток, в которое ожидается появление пуассоновского события. Циклическое нормальное распределение допустимо использовать для описания погрешностей в измерении углов. Хотя, если быть точным, они будут подчиняться другому распределению, но об этом чуть позже. Циклические распределения, хоть они и выглядят несколько однообразно, важны при анализе данных на земном шаре, если их дисперсии сравнимы с длиной экватора, а это характерно для широкого класса задач геофизики, климатологии и других наук о Земле.
Любопытно, что при зацикливании свойства распределения могут поменяться радикально. Например, относительная погрешность при измерении нулевой величины описывается распределением Коши. Оно примечательно тем, что её функция плотности вероятности имеет бесконечную площадь под кривой, так что для этого распределения невозможно вычислить значения среднего и дисперсии: они, в отличие от моды и медианы, для распределения Коши просто не определены. Однако круговой аналог этого распределения ведет себя хорошо, интегрируется и имеет вычислимые значения среднего и дисперсии. Это распределение встречается, например, в физике — при анализе явления дифракции.
Меняет свои свойства при зацикливании и нормальное (гауссовское) распределение. Его циклический аналог уже не будет устойчивым, а суммы случайных величин начнут сходиться не к нему. На окружности эту роль играет распределение фон Мизеса с такой функцией плотности вероятности:
Среднее значение для этого распределения равно μ, а величина 1/k влияет на дисперсию. В приведенном выражении I₀ — модифицированная функция Бесселя, одна из целого семейства специальных функций. Функции Бесселя обычно появляются, если в задаче есть осевая симметрия. Например, с их помощью описывается профиль круговых волн, разбегающихся по воде от упавшей капли.
Впрочем, когда дисперсия данных мала и угол незначительно отклоняется от среднего значения μ, косинус можно разложить в степенной ряд, в котором главную роль играет квадратичный член. Таким образом, когда влияние цикличности становится незначительным, то и распределение фон Мизеса оказывается похожим на «обычное» гауссовское. Никуда от него не денешься — в отличие от мифического «среднего пилота» или усредненной «идеальной женщины», случайные величины, подчиняющиеся нормальному распределению, встречаются повсеместно!