Книги по Информационным технологиям / Теория информации СГАУ (дифференциальная энтропия)
.pdfС другой стороны, в соответствии с (15.4)
w y/ x1 |
|
w Y/x1 |
, |
||
w y/ x |
|
w Y/ x |
|
||
0 |
|
0 |
|
|
следовательно
w 0 / x1 0 ,
w 0 / x0
где пороговое значение 0 определяется из необходимого условия (15.18):
w y/x0 dy .
0
Таким образом, решающее правило можно записать в виде:
если |
w Y/ x1 |
|
|
, то X x , |
|
w Y/x0 |
|
||||
|
0 |
1 |
|||
|
|
|
|||
если |
w Y/ x1 |
|
, то X x . |
||
w Y/ x0 |
|
||||
|
0 |
0 |
|||
|
|
|
15.6 Обнаружение сигналов по критерию минимального риска
Этот критерий является обобщением критерия Неймана-Пирсона. Он учи-
тывает также потери, к которым могут привести ошибки первого и второго ро-
да. Для этого ошибкам первого и второго рода ставятся в соответствие веса r , r , характеризующие цены ошибок, а величину r, определяемую как
r r p x0 r p x1 , |
(15.20) |
называют риском. В соответствии с критерием принимается гипотеза, при кото-
рой обеспечивается минимум риска.
Подставляя в (15.20) выражения для ошибок первого и второго рода можно
записать
r r p x0 w Y/x0 dY r p x1 w Y/x1 dY
v1 |
v0 |
(15.21) |
|
|
r p x1 r p x1 w Y/x1 r p x0 w Y/x0 dY.
v1
131
Минимум в (15.21) будет достигаться только при условии положительно-
сти подынтегральной функции:
r p x1 w Y/x1 r p x0 w Y/x0 0. |
(15.22) |
В соответствии с (15.22) решающее правило принимает вид
если |
w Y/ x1 |
|
|
r p x0 |
|
, то X x , |
(15.23) |
||||
w Y/ x |
|
|
r p x |
|
|||||||
|
|
|
|
0 |
1 |
|
|||||
0 |
|
|
|
|
|
1 |
|
|
|
|
|
если |
w Y/ x1 |
|
|
|
r p x0 |
|
, то X x . |
(15.24) |
|||
w Y/ x |
|
|
|
|
|
||||||
|
|
|
|
r p x |
0 |
0 |
|
||||
0 |
|
|
|
|
|
1 |
|
|
|
|
Критерий минимального риска обеспечивает принятие наиболее обосно-
ванного решения, учитывающего также и экономические потери. Достигается это за счет использования более богатой априорной информации. Помимо функций распределения w Y/X и априорных вероятностей p X в данном случае необходимо знать цены потерь r , r .
15.7 Различение сигналов
В данном случае сигнал X может иметь m возможных значений x1, x2 , …,
xm с априорными вероятностями p x1 , p x2 , …, p xm :
x1 p x1 ;
Xx2 p x2 ;
xm p xm .
При этом пространство принимаемых сигналов разбивается на m областей: v1,v2,...,vm . Соответственно выдвигается m гипотез: H1,H2,...,Hm о том, что
X x1, X x2 , …, X xm .
Процедура различения гипотез строится как дерево решений. По принято-
му вектору Y определяются функции правдоподобия:
L x1 p Y/x1 , L x2 p Y/x2 , ... ,L xm p Y/xm
и вычисляются отношения правдоподобия
132
p Y/xj |
|
|
i, j p Y/x |
|
|
i |
|
|
для всех возможных сочетаний пар xi, xj . |
|
|
Полученные значения i, j сравниваются с заданными пороговыми и при- |
||
нимается гипотеза, для которой все i, j |
0, |
j 1,m. Описанная выше процеду- |
ра может быть реализована в сочетании с любым из рассмотренных выше кри-
териев.
133
Лекция 16
Оценка параметров сигналов
16.1 Общая формулировка задачи восстановления сигналов
Восстановление сигналов сводится к оценке некоторого числа параметров.
Задача ставится следующим образом [12]. Пусть сигнал является функцией не-
которого аргумента, например, времени t:
y t f |
c1,...,cM ,t f c,t . |
(16.1) |
|||
Задача состоит |
в том, чтобы по |
принятой последовательности |
(вектору |
||
Y y1,y2,...,yN T ) определить вектор параметров c c1,...,cM T . |
|
||||
Другими словами, ищется |
|
|
|
||
ˆ |
ˆ |
|
minQ |
c , |
(16.2) |
c: |
Q c |
|
c
где Q c – некоторый критерий, характеризующий качество восстановления сигнала. Вид критерия качества определяется доступной априорной информа-
цией.
Наиболее широко в задачах восстановления используются линейные зави-
симости сигнала от искомых параметров. При оценке параметров динамических моделей это достигается линеаризацией в окрестности рабочей точки. При этом искомые параметры имеют смысл коэффициентов влияния малых отклонений сигналов от некоторого заданного (установившегося) рабочего режима.
Часто функциональную зависимость общего вида (16.1) специально пред-
ставляют в виде, допускающем преобразование ее к линейной модели, напри-
мер, экспоненциальными зависимостями. При этом преобразование к линейной относительно искомых параметров модели осуществляется путем логарифми-
рования.
В качестве зависимостей (16.1) широко используются также ортогональ-
ные представления сигналов (см. раздел 1.2):
M
y t ck k t ,
k 1
134
где k t – заданные ортогональные или ортонормированные базисные функ-
ции, а ck – искомые коэффициенты. Нетрудно заметить, что эти модели также линейные по искомым параметрам.
16.2 Задача оценки параметров линейных моделей
В случае дискретного аргумента и аддитивных ошибок измерений k ,
k 1,2, линейную модель сигнала можно представить в виде
yk xTkc k , |
k 1,2, |
(16.3) |
Если вектор искомых параметров c |
в пределах допустимой точности мо- |
дели считается неизменным для различных k , после проведения N измерений yk , xk , k 1,N в соответствии с (16.3) можно записать векторно-матричное соотношение [9]
Y Xc ξ, |
(16.4) |
где Y, ξ – N 1-векторы, а X – N M -матрица.
Задача оценки M 1-вектора параметров c состоит в построении прибли-
женных соотношений
cˆ h ξ .
Естественно стремление строить оценки, обладающие «хорошими» свойствами.
Обычно рассматривают следующие свойства оценок.
1. |
Несмещенность. Оценка cˆ |
векторного параметра c называется несме- |
||||
щенной, если |
|
|||||
|
M cˆ c. |
(16.5) |
||||
2. |
Состоятельность. Последовательность оценок cˆk называется состоятель- |
|||||
ной, если для сколь угодно малого 0 с ростом k |
||||||
|
limP |
|
cˆk c |
|
0, |
(16.6) |
|
|
|
||||
т.е. cˆk |
k |
|
|
|
|
|
сходится по вероятности к истинному значению c. |
||||||
3. |
Эффективность. Оценка cˆ |
называется эффективной, если для любой не- |
||||
смещенной оценки bˆ |
|
|||||
|
|
|
|
|
|
135 |
|
|
|
|
|
|
|
|
|
|
T |
|
|
|
M |
cˆ c cˆ c T |
M |
|
bˆ c |
|
bˆ c |
|
|
|
. |
(16.7) |
||
|
|
|
|
|
|
|
Неравенство A B здесь понимается в том смысле, что матрица B A неотри-
цательно-определенная.
16.3 Достижимая точность, неравенство Крамера-Рао
При построении оценок одним из основных является следующий вопрос:
какова наивысшая (предельная) точность возможна на имеющихся наблюдени-
ях и на каких оценках она достигается. Важнейшей характеристикой точности оценивания векторного параметра является ковариационная матрица
D cˆ M cˆ c cˆ c T . |
(16.8) |
Построим неравенство (Крамера-Рао), характеризующее ее нижнюю границу.
Пусть выборочный вектор ξ:
ξ Y Xc |
|
|
|
|
|
|
|
|
(16.9) |
обладает плотностью распределения w ξ . |
Введем в рассмотрение так назы- |
||||||||
ваемую информационную матрицу Фишера: |
|
||||||||
I c M с ln |
w ξ сT ln |
w ξ |
|
(16.10) |
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
с элементами Ii, j c M |
|
ln w ξ |
|
|
ln |
w ξ . |
|||
|
c |
|
|||||||
|
|
c |
|
j |
|
|
|||
|
i |
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
Теперь запишем заведомо неотрицательно-определенную матрицу:
B M I 1 c с ln w ξ cˆ c
(16.11)
I 1 c с ln w ξ cˆ c T 0.
После перемножения и взятия операции математического ожидания с учетом
(16.8), (16.10) имеем (для краткости, вместо I c здесь и далее используется обозначение I)
B I 1II 1 I 1M с lnw ξ cˆ c T
(16.12)
M cˆ c сT lnw ξ I 1 D cˆ 0.
136
Предполагая, что функция плотности вероятности w ξ допускает диффе-
ренцирование под знаком интеграла, вычислим градиент от обеих частей ра-
венства нормировки w ξ dξ 1:
1
с w ξ dξ сw ξ w ξ w ξ dξ M с lnw ξ 0.
Аналогично из условия несмещенности оценок параметров
сˆw ξ dξ с
сучетом того, что сT c сcT E, где E – единичная матрица, имеем
T w ξ
сˆ сT .w ξ dξ сˆ wс ξ w ξ dξ
(16.13)
(16.14)
M сˆ сT lnw ξ M с lnw ξ сˆT E.
Сучетом (16.13), (16.14) и очевидного равенства II 1 E неравенство (16.12)
можно переписать в виде
I 1 I 1 I 1 D cˆ 0
или
ˆ |
|
I |
1 |
|
|
(16.15) |
D c |
|
|
|
c . |
Мы получили неравенство Крамера-Рао, которое устанавливает нижнюю границу дисперсий оценок в классе всех несмещенных оценок. Заметим, что это неравенство получено при самых общих предположениях о выполнении усло-
вия нормировки и свойства несмещенности оценок, не связанных с методом оценивания. Оно позволяет судить, насколько данная оценка близка к опти-
мальной.
16.4 Оценки, минимизирующие среднеквадратическую ошибку
Они используются в условиях статистической неопределенности, когда нет сведений о распределении ошибок. В этом случае, опираясь на восходящее к Гауссу мнение, считают, что наилучшей является оценка, минимизирующая средневзвешенную квадратическую ошибку:
137
|
1 |
|
N |
|
||
Q c |
|
gi,j i j . |
|
|||
|
|
|
|
|||
|
|
|
2i, j 1 |
|
||
В векторно-матричной форме критерий запишется в виде |
|
|||||
Q с |
1 |
ξTG ξ, |
(16.16) |
|||
|
||||||
2 |
|
|
|
|||
где G – заданная положительно-определенная N N -матрица. |
||||||
Если известна ковариационная матрица K M ξ ξT |
коррелированной |
|||||
помехи с нулевым средним, то матрицу G, обычно, задают в виде G K 1: |
||||||
Q с |
1 |
ξTK 1ξ. |
(16.17) |
|||
|
||||||
2 |
|
|
|
Оценку (16.17) называют оценкой обобщенного метода наименьших квадратов
(ОМНК) или оценкой Гаусса-Маркова.
Если об ошибках измерений ничего не известно и нет никаких оснований,
отдать предпочтение каким либо измерениям, полагают G E:
Q с |
1 |
ξT ξ. |
(16.18) |
|
|||
2 |
|
|
Соответствующая этому критерию оценка наиболее широко используется на практике и называется оценкой метода наименьших квадратов (МНК).
16.5 Оценка максимального правдоподобия
Метод максимального правдоподобия используется в случае, когда априо-
ри известна плотность распределения w ξ . Он основан на интуитивном пред-
ставлении, что наиболее правдоподобна оценка, соответствующая максималь-
ному значению плотности распределения.
Поскольку функция lnw ξ достигает максимума в тех же точках, что и w ξ , в качестве функции потерь обычно применяют
Q с lnw ξ с . |
|
|
|
|
|
|
|
|
|
|
(16.19) |
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В случае гауссовых помех совместная плотность вероятности |
|
|||||||||||||
w ξ 2 |
|
N |
detK |
|
1 |
|
|
1 |
|
T |
|
1 |
|
|
|
|
|
|
|
||||||||||
2 |
2 |
exp |
|
|
ξ |
|
K |
|
ξ . |
(16.20) |
||||
2 |
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
138
При этом в соответствии с (16.19) получаем
|
|
|
N |
|
|
1 |
|
|
1 |
|
T |
|
1 |
|
|
|
|
|
|
|
|
|
|||||||||
Q с lnw ξ ln |
2 |
|
2 detK |
2 |
|
|
|
ξ |
|
K |
|
ξ. |
(16.21) |
||
|
2 |
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Нетрудно заметить, что первое слагаемое в правой части не зависит от искомых параметров, а второе слагаемое совпадает (16.17). Следовательно, критерий максимального правдоподобия совпадает с ОМНК при гауссовых помехах.
16.6 Оптимальность оценок МНК
и максимального правдоподобия
Покажем, что в случае нормального распределения ошибок ОМНК-оценка и совпадающая с ней оценка максимального правдоподобия оптимальны в смысле минимума дисперсии. Для этого достаточно показать, что ковариаци-
онная матрица ошибок оценивания совпадает с обратной информационной мат-
рицей Фишера.
Выпишем ковариационную матрицу ошибок оценивания. В соответствии с
(16.17) с учетом того, что ξ Y Xc, искомая ОМНК-оценка является решени-
ем уравнения
|
cQ с c |
1 |
ξTK 1ξ XTK 1ξ XTK 1Y XTK 1Xcˆ 0, |
|
||||||||
|
2 |
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
||
т.е. |
cˆ RY, |
|
|
|
|
|
|
|
|
|
|
(16.22) |
где |
T |
|
1 |
|
|
1 T |
K |
1 |
. |
(16.23) |
||
R X K |
|
|
X |
X |
|
|||||||
Подставляя в (16.22) |
|
Y Xc ξ из (16.4), с учетом того, что в соответствии с |
||||||||||
(16.23) |
T |
1 |
|
|
1 |
T |
|
1 |
X E, имеем |
|
||
RX X K |
|
X |
X K |
|
|
|||||||
|
cˆ RXc Rξ c Rξ. |
|
(16.24) |
Теперь, с использованием (16.24) запишем ковариационную матрицу оши-
бок оценивания:
D cˆ M cˆ c cˆ c T M Rξ Rξ T RM ξξT RT RKRT .
Наконец, подставляя в последнее равенство матрицу R из (16.23), окончатель-
но получаем
139
ˆ |
T |
1 1 |
T |
1 |
1 |
T |
1 |
1 T |
K |
1 1 |
(16.25) |
|||
D c |
X K |
X |
X K |
KK X |
X K |
|
X |
X |
X . |
|||||
Теперь запишем информационную матрицу Фишера (16.10) для гауссовой |
||||||||||||||
плотности (16.20). С учетом (16.21) |
|
|
|
|
|
|
|
|
||||||
с ln w ξ с |
1 |
ξTK 1 ξ XTK 1ξ. |
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
||||||||
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
Отсюда в соответствии с определением (16.10) сразу получаем |
|
|||||||||||||
I c M XTK 1ξξTK 1X XTK 1M ξξT K 1X XTK 1X. |
(16.26) |
|||||||||||||
Подставляя полученные выражения для D cˆ |
и I c |
из (16.25) (16.26) в нера- |
венство (16.15) (Крамера-Рао) убеждаемся, что оно превращается в равенство,
следовательно, оценки максимального правдоподобия и ОМНК-оценки опти-
мальны и достигается нижняя граница дисперсий.
16.7 Байесовские оценки
Два метода: максимальной апостериорной вероятности и минимального среднего риска обычно называют байесовскими, т.к. для их построения исполь-
зуется формула Байеса (15.1):
w с Y |
w с w Y с |
, где |
w Y w с w Y с dс. |
|
w Y |
||||
|
|
c |
Апостериорная плотность вероятности описывает частоты появления значений параметров после того, как к априорной информации добавлена информация,
извлеченная из наблюдений. Поэтому естественно в качестве оценок принять значения, соответствующие наибольшим апостериорным вероятностям или ми-
нимуму взятого со знаком минус логарифма плотности:
ˆ |
ˆ |
|
|
|
lnw с |
|
|
. |
(16.27) |
с: |
Q с |
|
min lnw Y |
|
|
lnw Y с |
|||
|
|
|
с |
|
|
|
|
|
|
Первый член в квадратных скобках не зависит от c, |
поэтому в качестве |
||||||||
функции потерь можно принять |
|
|
|
|
|
|
Q с lnw с lnw Y с . |
|
||||
|
|
|
|
||
Если плотности вероятностей гауссовы, критерий принимает вид |
|
||||
Q с ξTK 1ξ с |
с |
TKс1 с |
с |
, |
(16.28) |
140 |
|
|
|
|
|