В работе рассматривается общая методика построения байесовских оценок векторных параметров матричной модели и анализируются особенности их реализации в рекуррентной форме.
Ключевые слова: байесовские оценки , оценки с линейными ограничениями,рекуррентная форма. V.A.Galanina PhD, Associate Professor L.A. Reshetov PhD, Associate Professor M.V. Sokolovskay Senior lecturer St. Petersburg State University of Aerospace Instrumentation
ABOUT RECURRENT FORM BAYESIAN INFORMATIONAL SOLUTION FOR ILL CONDITIONED SYSTEMS
The paper considers a general methodology for constructing Bayesian estimates of vector parameters of the matrix model and the features of their implementations in a recurrent form are analyzed.
Keywords: Bayesian estimates,linear constraint estimates,recurrent form.
В настоящее время достаточно актуальной задачей обработки информации стала проблема распознавания изображений.Осбенностью процедур распознавания является резкое увеличение числа оцениваемых параметров модели и, как следствие, потеря стабильности вычислительных систем,которые обычно основаны на методе наименьших квадратов(МНК).Такие системы в научной литературе принято называть плохо обусловленными. Существуют два основных способа стабилизации оценок параметров для матричных моделей : применение байесовских оценок или же оценок максимального правдоподобия с дополнительными ограничениями на некоторые элементы вектора параметров. И в том и в другом случае используется априорная информация о векторе параметров. Эти оценки существуют и анализируются, как правило, раздельно. Мы показываем, что они представляют собой лишь частные решения одной более общей оптимизационной задачи.Также в работе выполнено сопоставление байесовских оценок и оценок МНК в обычной и последовательной(рекуррентной) форме
2 Введение.
Байесовские оценки, как известно, получают в результате максимизации апостериорной плотности вероятности p(β│y) по искомому векторному параметру β
p(β│y) = p(y│β)p(β) / p(y) , (1)
где p(y) – распределение вероятности входной реализации y, p(β) – априорное распределение вероятности вектора параметров β , p(y│β) – условное распределение вероятности вектора y .Обычно входную реализацию представляют в виде суммы
y = Xβ + ε . (2)
Если вектор y имеет размер m×1, а для вектора β размер n×1 , то X это матрица размера m×n. Тогда аддитивная помеха ε также вектор размера m×1 с нулевым средним и ковариационной матрицей Kε
Часто перечисленные вероятностные распределения относят к экспоненциальному типу и, как правило, принимается предположение о гауссовом характере распределения. Если также считать, что случайный вектор β подчиняется гауссовому закону распределения вероятности со средним β0 и ковариационной матрицей Kβ, то байесовские оценки являются результатом решения следующей минимизационной задачи
minβ{(y – Xβ)TKε-1(y – Xβ) + (β – β0)TKβ-1(β – β0)} . (3)
Заметим, что матрица [.]T обозначает транспонированную матрицу. Воспользовавшись необходимым условием локального минимума функции, мы получаем байесовскую оценку вектора
β~B = (XTKε-1X + Kβ-1)-1(XTKε-1y + Kβ-1β0) , (4)
Для исследования предельных состояний оценок полагают,что Kβ = λ2I и Kε = V2. Здесь символ I обозначает единичную матрицу. Тогда
minβ{(y – Xβ)TV-2(y – Xβ) + λ-2(β – β0)T(β – β0)} , (5)
β~B = (XTV-2X + λ-2I)-1(XTV-2y + λ-2β0) . (6)
Одновременно с байесовскими оценками β~B возможно построение оптимальных оценок с линейными ограничениями, которые следуют из решения задачи на минимум
minβ{(y – Xβ)TV-2(y – Xβ)} при условии Aβ = c , (7)
гле A и c – заранее заданные матрица и вектор соответственно. В англоязычной литературе эти оценки называют RLSE (restricted least squares estimator), то есть β~RLSE. Далее мы покажем, что оценки β~B и β~RLSE являются лишь частными решениями более общей минимизационной задачи.
Основной результат.
Найдём решение задачи
minβ{(y – Xβ)TV-2(y – Xβ) + λ-2(c – Aβ)T(c – Aβ)} . (8)
3
Здесь A и X это произвольные матрицы, размер которых позволяет проводить операцию умножения матриц, а матрица V полагается невырожденной. Выполняя стандартные действия по векторному дифференцированию и вычислению стационарной точки, получим оптимальное решение с минимальной нормой
β~(λ) = [(V~(λ))-1X~]+(V~(λ))-1y~ , (9)
где y~ = (y│c)T , X~= (X│A)T , V~(λ) – блочно диагональная матрица. Левый верхний диагональный блок этой матрицы V, а правый нижний диагональный блок λI. Матрица [.]+ обозначает обобщённую обратную матрицу Мура-Пенроуза. Так как обратная матрица (V~(λ))-1 сохраняет такую же блочно диагональную структуру, но при этом матрица V заменяется на V-1 и матрица λI на матрицу λ-1I, то
(V~(λ))-1X~ = (V-1X│λ-1A)T , (V~(λ))-1y~ = (V-1y│λ-1c)T . (10)
Обобщённая обратная Мура-Пенроуза для составной матрицы (V-1X│λ-1A)T имеет вид
[(V~(λ))-1X~]+ = [U+- JFU+│J] , U = V-1X , F = λ-1A , (11)
J = C+ + (I – C+F)U+(U+)TFTK(I – CC+) , C = F(I – U+U) ,
K = {I + [(I – CC+)FU+][(I – CC+)FU+]T}-1 .
Тогда оценка β~(λ) содержит следующие слагаемые [1]
β~(λ) = U+V-1y - JFU+V-1y + Jλ-1c .
Часто эту оценку переписывают в другой форме
β~(λ) = U+V-1y + λ-1J(с - AU+V-1y) . (12)
Возможна ещё одна форма записи этой оценки
β~(λ) = (I – JF)U+V-1y + Jλ-1c . (13)
В формуле (13) произведение матриц U+V-1y даёт оценку по методу наименьших квадратов (МНК), которая получается в результате минимизации квадратичной формы
minβ{(y – Xβ)TV-2(y – Xβ) }
без априорных данных и без привлечения каких-либо ограничений. Если же аддитивная помеха ε гауссовский вектор, то оценку (13) называют оценкой максимального правдоподобия (ОМП). Так как U+=(XTV-2X)+XTV-1, то свойства ОМП β~(λ) = U+V-1y существенно зависят от вырожденности или невырожденности матрицы XTV-2X . Когда столбцы матрицы X образуют систему линейно независимых векторов , матрица XTV-2X имеет обратную и оценка β~(λ) = (XTV-2X)-1XTV-2y будет несмещённой оценкой и её обычно называют наилучшей линейной несмещённой оценкой (BLUE). Её ковариационная матрица
Cov(βBLUE) = (XTV-2X)-1 . (14)
Некоторые упрощения общего результата возможны в частном случае при C = 0. Такие ситуации возникают, например, когда подпространство столбцов матрицы A
4
ортогонально подпространству строк матрицы X или же когда U+U = I. Допуская, что C = 0, получим
J = U+(U+)TFTK , K = {I + (FU+)(FU+)T}-1
и β~(λ) = U+V-1y + λ-2 U+(U+)TAT[I + (FU+)(FU+)T]-1 (с - AU+V-1y) . (15)
Оценка (15) при λ ≠ 0 относится к классу оценок с ”нежёсткими” ограничениями. Если положить, что матрица XTV-2X обратима, то
β~(λ) = U+V-1y + λ-2SAT[I + λ-2ASAT ]-1 (с - AU+V-1y) , S = (XTV-2X)-1 (16)
и её ковариационная матрица равна
Cov(β~(λ)) = {I - λ-2SAT[I + λ-2ASAT ]-1A}S{I - λ-2SAT[I + λ-2ASAT ]-1A}T . (17)
Оценка (16) имеет достаточно общий характер и из неё можем найти как байесовские оценки β~B , так и оценки с “жесткими” ограничениями β~RLSE .
Пусть матрица A = I и с = β0 .Формула (16) принимает слеющий вид
β~(λ) = U+V-1y + λ-2S[I + λ-2S ]-1 (β0 - U+V-1y)
и, после элементарных преобразований, полностью совпадает с выражением (6) для байесовской оценки β~B . Ковариационная матрица байесовской оценки
Cov(β~B ) = {I - λ-2S[I + λ-2S]-1}S{I - λ-2S[I + λ-2S ]-1}T . (18)
Предполагая теперь, что матрица ASAT имеет обратную, при λ → 0 и A ≠ I, из выражений (16),(17) находим RLSE
β~RLSE = U+V-1y + SAT[ASAT ]-1(с - AU+V-1y) (19)
и ковариационную матрицу RLSE
Cov(β~RLSE) = {I - SAT[ASAT ]-1A}S{I - SAT[ASAT ]-1A}T . (20)
Существенное отличие RLSE от байесовских оценок состоит в том, что в RLSE назначается не весь вектор β, а лишь его часть, которая определена ограничениями Aβ = c .
Попытаемся сравнить свойства наиболее простых и часто употребляемых оценок МНК и байесовских оценок.Как следует из формулы (6), оценка МНК соответствует бесконечно большому значению дисперсии парметра β.Оценка МНК несмещённая при любой величине параметра β, а осреднение производится по распределению аддитивного шума.Если для упрощения положить , что ковариационная матрица шума равна Kε = I , то ковариационная матрица ОМНК S = (XTX)-1 .Нетрудно понять, что резкое увеличение числа оцениваемых параметров приводит к росту числа обусловленности матрицы XTX и, соответственно, к росту (иногда на несколько порядков) дисперсии оценки МНК.Байесовские оценки , благодаря включению априорной информации, не имеют этого недостатка и дисперсия их всегда меньше , но при реализации этих оценок могут возникнуть иные проблемы.Байесовская схема выполняется в предположении случайного характера параметра β.Если β осциллирует медленно , то при небольшом объёме
5
выборочных данных возможны существенные отклонения “мгновенного” значения вектора β от предполагаемого β0 . Это приводит к смещению оценки , которое принято называть условным.
Привдённые выше схемы оценивания осуществляются в предедах всего выборочного объёма. Современные приёмы работы в реальном масштабе времени требуют создания последовательных алгоритмов оценивания параметров , которые могут генерировать оценку по мере последовательного поступления данных.Следует заметить, что рекуррентная форма оценки МНК известна довольно давно [2]. Используя результаты работы [3] и принимая некоторые упрощающие предположения, мы получили последовательную байесовскую оценку вектора параметров β на m+1 шаге процедуры
β(m+1) = β(m) + B(m)(x(m+1))T[1 + x(m+1)B(m) (x(m+1))T]-1(y(m+1) - x(m+1)β(m)) . (21)
Здесь верхний индекс в скобках означает номер итерации, y(m+1) – новая составляющая вектора входных данных y, x(m+1) – новая строка матрицы X , B(m) = (XTX + λ-2I)-1. Одновременно с вычислением вектора β(m+1) мы должны выполнить последовательное вычисление матрицы
B(m+1) = B(m) - B(m) (x(m+1))Tx(m+1)B(m) [1 + x(m+1)B(m) (x(m+1))T]-1 . (22)
Различие свойств оценок МНК и байесовских оценок оказывает влияние на условия сходимости алгоритма (21).Если значение параметра β фиксировано , то множитель в круглых скобках y(m+1) - x(m+1)β(m) для ОМНК будет стремиться к нулю, что гарантирует сходимость алгоритма при увеличении числа итераций m .Для байесовских процедур это не так.
Общий вывод,который можно сделать по результатам работы , состоит в том, что байеовские оценки разумно применять только при наличии достаточно надёжных априорных данных.
Библиографический список 1. Галанина В.А.,Решетов Л.А.,Соколовская М.В. Взаимосвязь байесовских оценок и оценок с линейными ограничениями // Моделирование и ситуационное управление качеством сложных систем.СПб.ГУАП.2020.С.22-25 2. Альберт А. Регрессия,псевдоинверсия и рекуррентное оценивание.М.:Наука,1977.223c. 3. Фомин В.Н. Рекуррентное оценивание и адаптивная фильтрация.М.:Наука,1984.284с.
.