Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Книги по Информационным технологиям / Теория информации СГАУ (дифференциальная энтропия)

.pdf
Скачиваний:
69
Добавлен:
10.04.2015
Размер:
1.38 Mб
Скачать

С другой стороны, в соответствии с (15.4)

w y/ x1

 

w Y/x1

,

w y/ x

 

w Y/ x

 

0

 

0

 

 

следовательно

w 0 / x1 0 ,

w 0 / x0

где пороговое значение 0 определяется из необходимого условия (15.18):

w y/x0 dy .

0

Таким образом, решающее правило можно записать в виде:

если

w Y/ x1

 

 

, то X x ,

w Y/x0

 

 

0

1

 

 

 

если

w Y/ x1

 

, то X x .

w Y/ x0

 

 

0

0

 

 

 

15.6 Обнаружение сигналов по критерию минимального риска

Этот критерий является обобщением критерия Неймана-Пирсона. Он учи-

тывает также потери, к которым могут привести ошибки первого и второго ро-

да. Для этого ошибкам первого и второго рода ставятся в соответствие веса r , r , характеризующие цены ошибок, а величину r, определяемую как

r r p x0 r p x1 ,

(15.20)

называют риском. В соответствии с критерием принимается гипотеза, при кото-

рой обеспечивается минимум риска.

Подставляя в (15.20) выражения для ошибок первого и второго рода можно

записать

r r p x0 w Y/x0 dY r p x1 w Y/x1 dY

v1

v0

(15.21)

 

 

r p x1 r p x1 w Y/x1 r p x0 w Y/x0 dY.

v1

131

Минимум в (15.21) будет достигаться только при условии положительно-

сти подынтегральной функции:

r p x1 w Y/x1 r p x0 w Y/x0 0.

(15.22)

В соответствии с (15.22) решающее правило принимает вид

если

w Y/ x1

 

 

r p x0

 

, то X x ,

(15.23)

w Y/ x

 

 

r p x

 

 

 

 

 

0

1

 

0

 

 

 

 

 

1

 

 

 

 

если

w Y/ x1

 

 

 

r p x0

 

, то X x .

(15.24)

w Y/ x

 

 

 

 

 

 

 

 

 

r p x

0

0

 

0

 

 

 

 

 

1

 

 

 

 

Критерий минимального риска обеспечивает принятие наиболее обосно-

ванного решения, учитывающего также и экономические потери. Достигается это за счет использования более богатой априорной информации. Помимо функций распределения w Y/X и априорных вероятностей p X в данном случае необходимо знать цены потерь r , r .

15.7 Различение сигналов

В данном случае сигнал X может иметь m возможных значений x1, x2 , …,

xm с априорными вероятностями p x1 , p x2 , …, p xm :

x1 p x1 ;

Xx2 p x2 ;

xm p xm .

При этом пространство принимаемых сигналов разбивается на m областей: v1,v2,...,vm . Соответственно выдвигается m гипотез: H1,H2,...,Hm о том, что

X x1, X x2 , …, X xm .

Процедура различения гипотез строится как дерево решений. По принято-

му вектору Y определяются функции правдоподобия:

L x1 p Y/x1 , L x2 p Y/x2 , ... ,L xm p Y/xm

и вычисляются отношения правдоподобия

132

p Y/xj

 

 

i, j p Y/x

 

 

i

 

 

для всех возможных сочетаний пар xi, xj .

 

Полученные значения i, j сравниваются с заданными пороговыми и при-

нимается гипотеза, для которой все i, j

0,

j 1,m. Описанная выше процеду-

ра может быть реализована в сочетании с любым из рассмотренных выше кри-

териев.

133

Лекция 16

Оценка параметров сигналов

16.1 Общая формулировка задачи восстановления сигналов

Восстановление сигналов сводится к оценке некоторого числа параметров.

Задача ставится следующим образом [12]. Пусть сигнал является функцией не-

которого аргумента, например, времени t:

y t f

c1,...,cM ,t f c,t .

(16.1)

Задача состоит

в том, чтобы по

принятой последовательности

(вектору

Y y1,y2,...,yN T ) определить вектор параметров c c1,...,cM T .

 

Другими словами, ищется

 

 

 

ˆ

ˆ

 

minQ

c ,

(16.2)

c:

Q c

 

c

где Q c – некоторый критерий, характеризующий качество восстановления сигнала. Вид критерия качества определяется доступной априорной информа-

цией.

Наиболее широко в задачах восстановления используются линейные зави-

симости сигнала от искомых параметров. При оценке параметров динамических моделей это достигается линеаризацией в окрестности рабочей точки. При этом искомые параметры имеют смысл коэффициентов влияния малых отклонений сигналов от некоторого заданного (установившегося) рабочего режима.

Часто функциональную зависимость общего вида (16.1) специально пред-

ставляют в виде, допускающем преобразование ее к линейной модели, напри-

мер, экспоненциальными зависимостями. При этом преобразование к линейной относительно искомых параметров модели осуществляется путем логарифми-

рования.

В качестве зависимостей (16.1) широко используются также ортогональ-

ные представления сигналов (см. раздел 1.2):

M

y t ck k t ,

k 1

134

где k t – заданные ортогональные или ортонормированные базисные функ-

ции, а ck – искомые коэффициенты. Нетрудно заметить, что эти модели также линейные по искомым параметрам.

16.2 Задача оценки параметров линейных моделей

В случае дискретного аргумента и аддитивных ошибок измерений k ,

k 1,2, линейную модель сигнала можно представить в виде

yk xTkc k ,

k 1,2,

(16.3)

Если вектор искомых параметров c

в пределах допустимой точности мо-

дели считается неизменным для различных k , после проведения N измерений yk , xk , k 1,N в соответствии с (16.3) можно записать векторно-матричное соотношение [9]

Y Xc ξ,

(16.4)

где Y, ξ N 1-векторы, а X N M -матрица.

Задача оценки M 1-вектора параметров c состоит в построении прибли-

женных соотношений

cˆ h ξ .

Естественно стремление строить оценки, обладающие «хорошими» свойствами.

Обычно рассматривают следующие свойства оценок.

1.

Несмещенность. Оценка cˆ

векторного параметра c называется несме-

щенной, если

 

 

M cˆ c.

(16.5)

2.

Состоятельность. Последовательность оценок cˆk называется состоятель-

ной, если для сколь угодно малого 0 с ростом k

 

limP

 

cˆk c

 

0,

(16.6)

 

 

 

т.е. cˆk

k

 

 

 

 

 

сходится по вероятности к истинному значению c.

3.

Эффективность. Оценка cˆ

называется эффективной, если для любой не-

смещенной оценки bˆ

 

 

 

 

 

 

 

135

 

 

 

 

 

 

 

 

 

 

T

 

 

 

M

cˆ c cˆ c T

M

 

bˆ c

 

bˆ c

 

 

 

.

(16.7)

 

 

 

 

 

 

 

Неравенство A B здесь понимается в том смысле, что матрица B A неотри-

цательно-определенная.

16.3 Достижимая точность, неравенство Крамера-Рао

При построении оценок одним из основных является следующий вопрос:

какова наивысшая (предельная) точность возможна на имеющихся наблюдени-

ях и на каких оценках она достигается. Важнейшей характеристикой точности оценивания векторного параметра является ковариационная матрица

D cˆ M cˆ c cˆ c T .

(16.8)

Построим неравенство (Крамера-Рао), характеризующее ее нижнюю границу.

Пусть выборочный вектор ξ:

ξ Y Xc

 

 

 

 

 

 

 

 

(16.9)

обладает плотностью распределения w ξ .

Введем в рассмотрение так назы-

ваемую информационную матрицу Фишера:

 

I c M с ln

w ξ сT ln

w ξ

 

(16.10)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

с элементами Ii, j c M

 

ln w ξ

 

 

ln

w ξ .

 

c

 

 

 

c

 

j

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

Теперь запишем заведомо неотрицательно-определенную матрицу:

B M I 1 c с ln w ξ cˆ c

(16.11)

I 1 c с ln w ξ cˆ c T 0.

После перемножения и взятия операции математического ожидания с учетом

(16.8), (16.10) имеем (для краткости, вместо I c здесь и далее используется обозначение I)

B I 1II 1 I 1M с lnw ξ cˆ c T

(16.12)

M cˆ c сT lnw ξ I 1 D cˆ 0.

136

Предполагая, что функция плотности вероятности w ξ допускает диффе-

ренцирование под знаком интеграла, вычислим градиент от обеих частей ра-

венства нормировки w ξ dξ 1:

1

с w ξ dξ сw ξ w ξ w ξ dξ M с lnw ξ 0.

Аналогично из условия несмещенности оценок параметров

сˆw ξ dξ с

сучетом того, что сT c сcT E, где E – единичная матрица, имеем

T w ξ

сˆ сT .w ξ dξ сˆ wс ξ w ξ dξ

(16.13)

(16.14)

M сˆ сT lnw ξ M с lnw ξ сˆT E.

Сучетом (16.13), (16.14) и очевидного равенства II 1 E неравенство (16.12)

можно переписать в виде

I 1 I 1 I 1 D cˆ 0

или

ˆ

 

I

1

 

 

(16.15)

D c

 

 

 

c .

Мы получили неравенство Крамера-Рао, которое устанавливает нижнюю границу дисперсий оценок в классе всех несмещенных оценок. Заметим, что это неравенство получено при самых общих предположениях о выполнении усло-

вия нормировки и свойства несмещенности оценок, не связанных с методом оценивания. Оно позволяет судить, насколько данная оценка близка к опти-

мальной.

16.4 Оценки, минимизирующие среднеквадратическую ошибку

Они используются в условиях статистической неопределенности, когда нет сведений о распределении ошибок. В этом случае, опираясь на восходящее к Гауссу мнение, считают, что наилучшей является оценка, минимизирующая средневзвешенную квадратическую ошибку:

137

 

1

 

N

 

Q c

 

gi,j i j .

 

 

 

 

 

 

 

 

2i, j 1

 

В векторно-матричной форме критерий запишется в виде

 

Q с

1

ξTG ξ,

(16.16)

 

2

 

 

 

где G – заданная положительно-определенная N N -матрица.

Если известна ковариационная матрица K M ξ ξT

коррелированной

помехи с нулевым средним, то матрицу G, обычно, задают в виде G K 1:

Q с

1

ξTK 1ξ.

(16.17)

 

2

 

 

 

Оценку (16.17) называют оценкой обобщенного метода наименьших квадратов

(ОМНК) или оценкой Гаусса-Маркова.

Если об ошибках измерений ничего не известно и нет никаких оснований,

отдать предпочтение каким либо измерениям, полагают G E:

Q с

1

ξT ξ.

(16.18)

 

2

 

 

Соответствующая этому критерию оценка наиболее широко используется на практике и называется оценкой метода наименьших квадратов (МНК).

16.5 Оценка максимального правдоподобия

Метод максимального правдоподобия используется в случае, когда априо-

ри известна плотность распределения w ξ . Он основан на интуитивном пред-

ставлении, что наиболее правдоподобна оценка, соответствующая максималь-

ному значению плотности распределения.

Поскольку функция lnw ξ достигает максимума в тех же точках, что и w ξ , в качестве функции потерь обычно применяют

Q с lnw ξ с .

 

 

 

 

 

 

 

 

 

 

(16.19)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

В случае гауссовых помех совместная плотность вероятности

 

w ξ 2

 

N

detK

 

1

 

 

1

 

T

 

1

 

 

 

 

 

 

 

2

2

exp

 

 

ξ

 

K

 

ξ .

(16.20)

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

138

При этом в соответствии с (16.19) получаем

 

 

 

N

 

 

1

 

 

1

 

T

 

1

 

 

 

 

 

 

 

 

 

Q с lnw ξ ln

2

 

2 detK

2

 

 

 

ξ

 

K

 

ξ.

(16.21)

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Нетрудно заметить, что первое слагаемое в правой части не зависит от искомых параметров, а второе слагаемое совпадает (16.17). Следовательно, критерий максимального правдоподобия совпадает с ОМНК при гауссовых помехах.

16.6 Оптимальность оценок МНК

и максимального правдоподобия

Покажем, что в случае нормального распределения ошибок ОМНК-оценка и совпадающая с ней оценка максимального правдоподобия оптимальны в смысле минимума дисперсии. Для этого достаточно показать, что ковариаци-

онная матрица ошибок оценивания совпадает с обратной информационной мат-

рицей Фишера.

Выпишем ковариационную матрицу ошибок оценивания. В соответствии с

(16.17) с учетом того, что ξ Y Xc, искомая ОМНК-оценка является решени-

ем уравнения

 

cQ с c

1

ξTK 1ξ XTK 1ξ XTK 1Y XTK 1Xcˆ 0,

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

т.е.

cˆ RY,

 

 

 

 

 

 

 

 

 

 

(16.22)

где

T

 

1

 

 

1 T

K

1

.

(16.23)

R X K

 

 

X

X

 

Подставляя в (16.22)

 

Y Xc ξ из (16.4), с учетом того, что в соответствии с

(16.23)

T

1

 

 

1

T

 

1

X E, имеем

 

RX X K

 

X

X K

 

 

 

cˆ RXc Rξ c Rξ.

 

(16.24)

Теперь, с использованием (16.24) запишем ковариационную матрицу оши-

бок оценивания:

D cˆ M cˆ c cˆ c T M Rξ Rξ T RM ξξT RT RKRT .

Наконец, подставляя в последнее равенство матрицу R из (16.23), окончатель-

но получаем

139

ˆ

T

1 1

T

1

1

T

1

1 T

K

1 1

(16.25)

D c

X K

X

X K

KK X

X K

 

X

X

X .

Теперь запишем информационную матрицу Фишера (16.10) для гауссовой

плотности (16.20). С учетом (16.21)

 

 

 

 

 

 

 

 

с ln w ξ с

1

ξTK 1 ξ XTK 1ξ.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

Отсюда в соответствии с определением (16.10) сразу получаем

 

I c M XTK 1ξξTK 1X XTK 1M ξξT K 1X XTK 1X.

(16.26)

Подставляя полученные выражения для D cˆ

и I c

из (16.25) (16.26) в нера-

венство (16.15) (Крамера-Рао) убеждаемся, что оно превращается в равенство,

следовательно, оценки максимального правдоподобия и ОМНК-оценки опти-

мальны и достигается нижняя граница дисперсий.

16.7 Байесовские оценки

Два метода: максимальной апостериорной вероятности и минимального среднего риска обычно называют байесовскими, т.к. для их построения исполь-

зуется формула Байеса (15.1):

w с Y

w с w Y с

, где

w Y w с w Y с dс.

w Y

 

 

c

Апостериорная плотность вероятности описывает частоты появления значений параметров после того, как к априорной информации добавлена информация,

извлеченная из наблюдений. Поэтому естественно в качестве оценок принять значения, соответствующие наибольшим апостериорным вероятностям или ми-

нимуму взятого со знаком минус логарифма плотности:

ˆ

ˆ

 

 

 

lnw с

 

 

.

(16.27)

с:

Q с

 

min lnw Y

 

 

lnw Y с

 

 

 

с

 

 

 

 

 

 

Первый член в квадратных скобках не зависит от c,

поэтому в качестве

функции потерь можно принять

 

 

 

 

 

 

Q с lnw с lnw Y с .

 

 

 

 

 

Если плотности вероятностей гауссовы, критерий принимает вид

 

Q с ξTK 1ξ с

с

TKс1 с

с

,

(16.28)

140