Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
18
Добавлен:
14.02.2016
Размер:
623.36 Кб
Скачать

YX2 = D(y x) = [y rY(x)]2 = 0, т.е.

 

y = rY(x) = y Pr(x, y) dy / Pr(x, y) dy .

(2.1.7)

Это означает, что ошибка определения статистической связи между случайными величинами Y и X отсутствует. Статистическая связь полностью определяется регрессионной зависимостью (2.1.7).

Заметим, что подобно тому, как среднее (математическое ожидание) является важнейшей характеристикой распределения, регрессия является важнейшей характеристикой условного распределения.

Пример 2.1.1. Пусть совместное распределение случайных

величин X и Y описывается нормальной плотностью вероятно-

стей с x , y , D(x) = X2 = x2 , D(y) = Y2 = y2 , cor(x, y) = XY ,

XY < 1. Тогда

Pr(x, y)=N( x , y ;COVXY), Pr(y x)=N(r(x);(1- XY2) Y2), (2.1.8)

где

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

XY

 

X

 

Y

 

 

 

 

 

 

 

COVXY

=

 

 

X

 

 

 

 

 

,

 

 

 

 

 

 

 

 

2

 

 

 

 

XY

X

Y

 

 

 

 

 

 

 

 

 

 

 

Y

 

 

 

 

-1

 

 

1

 

 

 

Y2

 

 

 

XY X Y

COV

XY =

 

 

 

 

 

 

 

 

 

 

 

 

2

2

(1 2

)

 

XY

 

X

 

Y

2

 

 

X

Y

XY

 

 

 

 

 

X

или

 

 

 

 

 

 

 

 

 

 

 

 

 

Pr(x, y) = exp{– [(x x )2/ X2 – 2 XY (x x )(y y )/ X Y + + (y y )2/ Y2]/2(1 – XY2)}/ 2 X Y (1 – XY2)1/2,

Pr(y x) = Pr(x, y) / Pr(x) =

(2.1.9)

= exp{– [(y r(x)]2/2 Y2 (1– XY2)}/ (2 )1/2 Y (1 – XY2)1/2.

При этом

 

 

r(x) = y + ( Y / X) XY (x x ),

(2.1.10)

R2 = Y2 XY2, YX2

= Y2 (1 – XY2).

 

 

21

 

Тем самым, при нормальном совместном законе распределения случайных величин X и Y регрессия является линейной.

2.2. Оптимальный стохастический прогноз.

Оптимальный стохастический прогноз или оптимальный предиктор случайной величины X в классе всех функций y = f(x) по мере среднеквадратической ошибки (СКО) совпадает с функцией регрессии Y на X.

Действительно, будем искать функцию f(x) предиктора, воспользовавшись МНК, т.е. минимизируя СКО

СКО = [y f(x)]2 Pr(y x) dy .

(2.2.1)

Тогда, записывая условия минимума СКО СКО/ f = 0, получим

СКО/ f = [y f(x)] Pr(y x) dy = 0 .

Отсюда следует

f(x) Pr(y x) dy = y Pr(y x) dy.

Однако, т.к. Pr(y x)dy = Pr(x, y)dy /Pr(x) = Pr(x)/Pr(x) = 1,

то получим

f(x) = y Pr(y x) dy = y Pr(x, y) dy / Pr(x, y) dy,

(2.2.2)

что совпадает с (2.1.3), т.е. f(x) = rY(x).

Минимальная ошибка предсказания СКОмин может быть записана в соответствии с (2.2.1) в виде

СКОмин = YX2 = [y rY(x)]2 Pr(x, y) dy / Pr(x, y) dy.

(2.2.3)

Для произвольного предиктора f(x)

 

cov(f,Y) = cov(f, rY(x)),

(2.2.4)

cov(rY(x),Y) = cov(rY(x), rY(x)) = R2

 

Тогда коэффициент корреляции

 

2(f,Y) = cov2(f,Y) / f2 Y2 = {cov2(f, rY(x))/ f2 R2} R2/ Y2 =

= 2(f, rY(x)) 2(rY(x),Y) .

(2.2.5)

Из (2.2.5) следует, что оптимальный предиктор rY(x) имеет

максимальный коэффициент корреляции с Y среди всех возмож-

ных предикторов, т.е. 2(rY(x),Y) ≥ 2(f,Y) для любого f(x), т.к.

2(f, rY(x)) ≤ 1.

22

Квадрат максимального значения коэффициента корреля-

ции 2(rY(x),Y) имеет специальное обозначение 2YX и называется

корреляционным отношением. Из (2.1.5), (2.2.4) и (2.2.5) следу-

ет, что

YX2 = R2/ Y2 = 1 – YX2

/ Y2

= 1 – СКОмин / Y2 .

(2.2.6)

Отсюда следует, что YX2 1, если минимальная ошибка прогноза СКОмин 0. Тем самым, корреляционное отношениеYX2 представляет собой некую меру зависимости (или меру точности прогноза) между случайными величинами Y и X.

В случае нормальной корреляции (2.1.9) наилучший про-

гноз и его СКОмин = YX2

имеют вид (2.1.10), а корреляционное

отношение

 

2YX = XY2.

(2.2.7)

Поскольку при нормальной корреляции наилучший прогноз (2.1.10) имеет линейную зависимость, то в случае общей зависимости разность 2YX XY2 может служить показателем отклонения регрессионной зависимости от линейной зависимости.

Так как 2YX XY2 , то показатель отклонения регрессии от линейности всегда больше нуля.

Пример 2.2.1. Обобщим прогноз при нормальном распределении на многомерный случай. Пусть X = {x1, x2, … xn-1}, Y =

= xn , n 2 и Pr(Y, X) = N( x1 , x2 , … , xn ; COV), где COV = = km n = (xk xk ) (xm xm) n – невырожденная ковари-

ационная матрица, имеющая обратную матрицу COV 1 =

=km n.

Вэтом случае

Pr(Y X = x) = N(r(x1, x2, … , xn-1); 1/ nn),

(2.2.8)

r(x1, x2, … , xn-1) = xn n 1

(xk xk ) kn / nn ,

 

 

k 1

 

 

YX2

= 1/ nn, R2 = nn – 1/ nn,

 

 

YX2

= 1 – 1/( nn nn).

 

 

23

2.3. Синтез предикторов. Синтез линейного предиктора.

Пусть предиктор описывается функцией множественной линейной регрессии

Y = 0 + 1 X1 + 2 X2 + … p X p = 0 + + X.

(2.3.1)

В (2.4.1) введены векторные обозначения: + = ( 1, 2, …,p) – вектор-строка (транспонированный вектор-столбец ); X – вектор-столбец

 

X1

 

+ X = 1, 2, …, p

X 2

= 0 + 1 X1 + 2 X2 + … p X p.

 

.

 

 

X p

 

 

 

(2.3.2)

Обозначим

 

 

COV+(Y,X) = {cov(Y,X1), cov(Y,X2), …, cov(Y,Xp)},

 

cov( X1, X1 )

cov( X1, X 2 ) ...

cov( X1, X p )

=

cov( X 2 , X1 )

cov( X 2 , X 2 ) ...

cov( X 2 , X p )

...

...

...

...

 

 

cov( X p , X1 )

cov( X p , X1 ) ...

cov( X p , X p )

(2.3.3)

.

Тогда коэффициенты предиктора, минимизирующие ошибку (2.2.1) предсказания (см. также стр. 8), можно выразить

в виде

Y + X ,

 

0 =

(2.3.4)

= -1 COV(Y,X),

где -1 – матрица, обратная к ковариационной матрице . Ошибка предиктора (2.2.1) определяется соотношением

СКОмин = YX2 = Y2 COV+(Y,X) -1 COV+(Y,X).

(2.3.5)

Корреляционное отношение (2.2.6)

 

YX2 = COV+(Y,X) -1 COV+(Y,X) / Y2

(2.3.6)

называется множественным коэффициентом корреляции.

24

Пример 2.3.1. Пусть предиктор описывается функцией множественной линейной регрессии Y = 0 + 1 X1 + 2 X2. Требуется провести оценку его коэффициентов 0 , 1 , 2 и ошибку предсказания.

Решение. Ковариационная матрица в соответствии с (2.3.3) выражается как

 

=

 

cov( X1, X1 ) cov( X1

, X 2 )

.

 

 

 

 

 

 

(2.3.7)

 

cov( X 2 , X1 )

cov( X 2 , X 2 )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Тогда,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

-1

=

 

 

cov( X 2 , X 2 )

 

cov( X 2 , X1 )

 

 

/ Det =

 

(2.3.8)

 

 

 

 

 

 

 

 

cov( X 2 , X1 )

cov( X1 , X1 )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

 

cov( X 2 , X 2 )

 

cov( X 2 , X1 )

 

/

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

cov( X 2 , X1 )

cov( X1 , X1 )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

/[cov(X1, X1) cov(X1, X1) – cov2(X1, X2)].

Следовательно, в соответствии с (2.3.4)

 

 

 

 

 

=

 

-1 COV(Y,X) =

 

 

 

 

 

 

 

 

(2.3.9)

 

=

 

 

1

 

=

 

cov( X

2

, X 2 )

cov( X 2 , X1 )

 

cov(Y , X1 )

 

/ Det .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

cov( X 2 , X1 )

cov( X1 , X1 )

 

cov(Y , X

2 )

 

 

 

 

 

 

 

 

 

 

 

 

Следовательно, коэффициенты предиктора и точность предсказания определяются выражениями

1

=

 

cov(Y , X1 )cov( X 2 , X 2 ) cov(Y , X 2 )cov( X1, X 2 )

, (2.3.10)

 

 

 

 

 

cov( X

1

, X

)cov( X

2

, X

2

) cov2 ( X

, X

2

)

 

 

 

 

 

 

1

 

 

 

 

 

1

 

 

 

 

 

2

=

 

cov(Y , X1 )cov( X1, X 2 ) cov(Y , X 2 )cov( X1, X1 ) ,

 

 

 

cov( X

 

, X

 

)cov( X

2

, X

2

) cov2 ( X

 

, X

2

)

 

 

 

 

 

1

1

 

 

 

 

1

 

 

 

 

0 = Y 1 X1 2 X2 ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

YX2

= [ 1 cov(Y, X1)

 

+ 2 cov(Y, X2)] / Y2 .

 

 

 

 

 

Для частного случая статистически независимых (ортогональных) переменных X1 и X2 , для которых cov(X1, X2) = 0, получим

25

 

 

cov(Y , X

1 )

 

 

 

 

2

 

 

 

1

=

 

 

 

 

 

=

 

cov(Y, X1) / X1

,

 

(2.3.11)

cov( X1, X1 )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

cov(Y , X

2 )

 

 

 

 

2

 

 

 

2

=

 

 

 

 

 

=

 

cov(Y, X1) / X2

,

 

 

cov( X 2 , X 2 )

 

 

 

 

 

 

 

 

 

 

 

 

 

0

= Y

cov(Y , X1 )

 

X1

cov(Y , X 2 )

X2 ,

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

X 1

 

 

 

 

 

X 2

 

 

 

YX2 = [

cov2 (Y , X1 )

+

 

cov2 (Y , X 2 )

] / Y2 .

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

2

 

 

 

 

 

 

 

X 1

 

 

 

 

X 2

 

 

 

Синтез нелинейного предиктора для экспертного оценивания.

Предположим, что ОУ зависит от многомерного вектора структурных параметров (факторов) P = (P1, P2, …, PN). Пусть известны M эталонных состояний ОУ (M < N) с соответствую-

щими векторами Pm = (Pm1, Pm2, …, PmN) (m = 1, 2, …, M). Пусть также в каждом эталонном состоянии ОУ известны значения Ym

некоторого параметра Y состояния ОУ. Необходимо синтезировать регрессионную оценку параметра Y ЭО для произвольного значения P.

Если предположить, что структурные параметры статисти-

чески независимы (cov(Pk, Pn) = 0 для k n), то в соответствии с примером 2.3.1 получим линейную регрессионную оценку

 

 

 

 

N cov(Y , P )

 

 

 

 

 

Y = rлин(P) =

Y n

 

 

 

 

 

n

(Pn

 

Pn ) ,

(2.3.12)

 

2

 

 

 

 

 

 

 

 

Pn

 

 

 

 

 

 

где

 

 

 

 

 

 

 

 

 

 

 

 

 

Y = (

1

MYm ) , Pn =

(

1

M Pmn ) ,

 

 

(2.3.13)

 

 

 

 

 

 

M

m

 

 

 

M

m

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

cov(Y , Pn )

1

MYm Pmn

(

1

MYm )(

1

M Pmn ) ,

 

 

 

 

 

 

 

 

M

m

 

 

M

m

 

M

m

 

 

 

 

 

 

 

 

 

 

 

 

 

Pn2 M1 mM Pmn2 ( M1 mM Pmn )2 .

Возможен другой подход с использованием нелинейного предиктора. Для этого введем M функций, представляющих собой меры сходства Xm = X(P, Pm) неизвестного P эталонного Pm

26

векторов (m = 1, 2, …, M). Выберем функции такими, что

cov(Xk, Xm) 0, Xkm = X(Pk, Pm) 0 для k m и Xkk = X(Pk, Pk) = 1.

Такими функциями могут быть следующие нечеткие функции, рассмотренные в Модуле 1 (стр. 63, глава 2)

1)X(P, Pm) = exp{– [exp(– P Pm 2/2 2) – 1]2}, (2.3.14)

2)X(P, Pm) = /{ + [1 – exp(– P Pm 2/2 2)]N},

3)X(P, Pm) = / { +[ Nn=1 (Pn Pmn)2] N / (2 2) N }.

Будем синтезировать нелинейный (по переменной P) предиктор в виде регрессии

Y = rнелин(P) = kM k X (P, Pk ) .

 

 

 

 

(2.3.15)

Опираясь на

предыдущие результаты

и учитывая, что

X(Pk, Pm) < < X(Pm, Pm), получим

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

M Y , X k

 

 

 

 

 

 

 

 

 

 

Y = rнелин(P) =

 

 

 

 

 

 

 

 

X (P, Pk ) ,

(2.3.16)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k

 

X k , X k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X k , X k

 

1

M

X 2

 

X kk2

,

 

 

 

 

 

 

 

M

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k

 

 

mk

 

 

M

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Y , X k

 

1

MYm X mk

Yk X kk

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

M

m

 

 

 

 

 

 

 

M

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Тогда c учетом (2.3.14) регрессия (2.3.15) принимает вид

Y = rнелин(P) M

 

Yk

X (P, Pk ) = M Yk X (P, Pk ) . (2.3.17)

X

 

 

 

 

 

 

 

 

 

 

k

kk

 

 

 

 

 

 

 

 

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

СКО

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

M

( M

Y

 

X km

)

2 (max

 

 

{

X km

})2 ( MY )2 .

 

 

 

 

 

 

 

k m

 

 

M

k

 

 

m k

m X mm

 

 

 

 

 

 

 

X

mm

т m

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Если в качестве функций X(P, Pk) использовать нормиро-

ванные «ядерные» оценки x(P, Pk) = X(P, Pk) / kMX(P, Pk) условной плотности распределения Y, то (2.3.17) будет ядерной вы-

борочной оценкой нелинейной регрессии (2.1.3)

Y = kM Yk x(P, Pk ) = kM Yk X (P, Pk ) / kM X (P, Pk ) .

(2.3.18)

27

Вопросы для самопроверки к главе 2

1. В каких случаях используется прогнозирование состояний экономических объектов на основе их стохастических моделей?

2.Какие функции называются предикторами?

3.Какому закону подчиняется совместное распределение двух случайных величин?

4.Что такое условное распределение случайной величи-

ны?.

5.Как определяется маргинальное распределение случайной величины?

6.Как определяется функция регрессии?

7.Как определяется полная ошибка случайной величины Y, статистически связанной со случайной величиной X?

8.Каков вид регрессии при нормальном законе распределения случайных величин X и Y?

9.Объясните смысл оптимального стохастического про-

гноза.

10.Дайте определение корреляционного отношения.

11.Что служит показателем отклонения регрессионной зависимости от линейной зависимости?

12.Каков вид зависимости предиктора, описываемого множественной линейный регрессией?

13.Каков вид зависимости предиктора, описываемого нелинейный регрессией?

28

Тренировочные задания

1.Выразите сезонный компонент Seast и циклический компонент Sirct помехи в виде моделей стационарных авторегрессий первого порядка (1.1.11). Запишите вид уравнения (1.1.1) для данного случая.

2.Проведите самостоятельный вывод результата (1.1.10)

для случая St = + 1 Ct1 + 2 Ct2.

3.Используя (1.1.11), выведете зависимость S4 от 1, 2, S0

изначений помех E1 , E2, … E4 , положив S-1 = 0.

4.Выведите самостоятельно уравнения (1.1.20).

5.Выведите самостоятельно уравнения (1.1.23).

6.Выведите самостоятельно уравнения (1.1.24).

29

Тесты по темам пособия

(выбрать правильный ответ/ответы из 3-х предлагаемых)

Линейная РАР – модель со стационарными коэффициентами задается выражением:

1.1

St = K

k Ck ,t

+ Ht ;

 

 

k 1

 

 

 

1.2

St = m k St k

+ K

k Ck ,t + Ht ;

 

k 1

 

k 1

 

1.3

St = m k St k

+ Ht ;

 

 

k 1

 

 

 

2. Сезонный компонент помехи отражает:

2.1повторяемость процессов во времени и состоит из последовательности почти повторяющихся циклов;

2.2плавное изменение процессов во времени;

2.3плавное циклическое изменение процессов во времени.

3. Циклический компонент помехи отражает:

3.1длительные периоды относительного подъема, которые меняются по амплитуде и протяженности;

3.2длительные периоды относительного подъема и спада и состоит из циклов, которые меняются по амплитуде и протяженности;

3.3длительные периоды спада, которые меняются по амплитуде и протяженности.

4.Стохастический компонент помехи описывается:

4.1авторегрессионной моделью;

4.2колебательной моделью;

4.3моделью Гаусса-Маркова.

5.Модель парной линейной регрессии имеет вид:

5.1St = + Ct + Et , M(Et) = 0, M(Et Et - k)= 2 ;

5.2St = + Ct + Et , M(Et) = 0, M(Et Et - k)= 2 k ;

5.3St = Ct + Et , M(Et) = 0, M(Et Et - k)= 2 k .

6.Модель множественной линейной регрессии имеет вид:

6.1St= + 1 Ct1 + 2 St2 + … r Ctr + Et;

6.2St= + 1 Ct1 + 2 Ct2 + … r Ctr ;

6.3St= + 1 St1 + 2 St2 + … r Str + Et.

30

Соседние файлы в папке ИТ (Excel)