Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Tip_rasch_ver.pdf
Скачиваний:
692
Добавлен:
31.03.2015
Размер:
3.46 Mб
Скачать

2.14. Ковариация

Важную информацию о системе случайных величин( X ,Y ) дают ее числовые характеристики. К ним относятся математические ожидания

каждой из величин M ( X ) = mx и M (Y ) = mу . Пара чисел mx и mу

указывает

на

плоскости

координаты

средней

,

тотносительночки

которой

происходит рассеяние

положений

случайной

точки( X ,Y ) . Дисперсии

 

o

 

 

o

 

 

 

D( X ) = s2х = M ( Х 2 )

и

D(Y ) = s2у

= M (Y 2 )

характеризуют

разброс

положений случайной точки вдоль соответствующих координатных осей. Для характеристики зависимости между Х и Y используют величину

oo

sху cov( X=,Y ) М (=Х Y ) M[(=X mx )(Y mу )],

которая называется ковариацией или ковариационным моментом. Заметим,

o

 

 

 

 

 

что cov(X , X ) = =M ( Х 2 )

s2х . Из определения ковариации следует, что

 

cov( X ,Y ) = M [ XY Xmу -Ymx

+ mxmу ] = M ( XY ) – M ( X )M (Y ),

 

откуда

 

 

 

 

 

M ( XY ) = M ( X )M (Y ) + cov( X ,Y ).

 

 

 

Кроме того D( X ± Y )

D=( X ) + D(Y ) ± 2cov( X ,Y ).

 

 

 

Если случайные величины X и Y независимы, то их ковариация равна

 

нулю и тогда

 

 

 

 

 

M ( XY ) = M ( X )M (Y ) и D( X ± Y ) D=( X ) + D(Y ).

 

 

Ковариация

содержит

информацию

о

зависимости

между

величинами. Но значение sху изменяется при изменении единиц измерения X и Y. Поэтому для характеристики зависимости между величинами удобно рассматривать величину

cov( X ,Y ) rx у = =

D( X ) D(Y )

o o

 

M ( XY ) - M ( X )M (Y )

 

M ( X Y )

 

 

s=X sY

 

 

, (2.14.1)

 

sX sY

которая называется коэффициентом корреляции величин X и Y.

Величины D( X ) = s2х , , D(Y ) = s2у и cov(X ,Y ) характеризуют разброс

положений случайной точка на плоскости. Эти числовые характеристики принято записывать в виде матрицы

æ s2X

cov( X ,Y ) ö

(14.2)

ç

s2

÷,

çcov( X ,Y )

÷

 

è

Y

ø

 

которую называют ковариационной матрицей системы случайных величин

(X,Y).

139

 

 

 

 

2.14.1. Корреляционная зависимость

 

 

 

 

 

Наиболее

простой

и

 

известной

формой

зависимости

между

величинами является функциональная зависимость, при которой каждому

 

значению аргумента соответствует строго определенное значение функции.

 

Функциональная

зависимость

 

может

быть

и

между

случайными

величинами. Существует иной, широко распространенный в природе, тип

 

зависимости между случайными величинами. Эта зависимость проявляется

 

в том, что закон распределения одной случайной величины изменяется при

 

изменении другой. Такая зависимость называется статистической.

 

 

 

Следует заметить, что функциональная зависимость бывает лишь в

 

теоретических построениях или в условиях специально подготовленных

 

опытов. Физический опыт в том и состоит, что исследователь старается по

 

возможности исключить влияние всех посторонних факторов и наблюдать

 

зависимость в чистом виде.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Явления окружающего нас мира взаимосвязаны и воздействие одной

 

переменной на другую происходит при

одновременном воздействии

множества

других

 

переменных, поэтому

 

даже

функциональные

зависимости проявляются как зависимости статистические.

 

 

 

 

Итак, при статистической зависимости изменение одной величины

 

приводит к изменению закона распределения другой. Если Y –– дискретная

 

случайная величина, то это означает, что при каждом фиксированном

 

значении

X = x имеется набор возможных значенийy и соответствующих

 

им

вероятностей p( y / x) = P(Y

=y / X

=x).

Последним обозначением

 

подчеркивается,

что

речь идет

 

о

 

событииY = y

при

условии, что

 

произошло событие X = x .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Набор возможных значенийy и соответствующих им условных

 

вероятностей образует условный закон распределения ( å р( у /х) =1).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

у

 

 

 

 

Для

непрерывной

случайной

 

величины

можно

ввести

понятие

условной функции распределения или условной плотности вероятности.

 

Если

 

рассмотреть

 

вероятности

 

событийA ={x < X < x + dx}

и

 

B ={y < Y < y + dy}, то

по

аналогии с

теоремой умножения вероятностей

 

событий

можно

получить

для

условной плотности вероятностиf ( y / x)

 

соотношение

f (x, y) = f1 (x) f ( y / x),

где

f (x, y) –– плотность вероятности

 

системы ( X ,Y ) , а

f1 (x) –– маргинальная плотность вероятности случайной

 

величины X. Из этого соотношения

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

f ( y / x) =

f (x, y)

=

 

 

f (x, y)

.

 

 

 

 

 

 

 

 

 

 

¥

 

 

 

 

 

 

 

 

 

 

 

 

 

f1 (x)

ò

f (x, y)dy

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

140

На протяжении этого раздела будем проводить выкладки только для дискретных случайных величин. Для непрерывных случайных величин все

рассуждения и выводы останутся

в , силеесли

заменить

суммы на

интегралы, а вероятности на плотности вероятности.

 

 

Статистическая

зависимость

сложна

для

изучения. Трудно

проследить за изменением всего закона распределения . сразуПроще сосредоточиться на изучении изменения числовых характеристик, в первую очередь математического ожидания. Условный закон распределения имеет числовые характеристики такие же, как и обычные законы распределения. В частности, М (Y / х) = åур( у /х) –– для дискретной случайной величины

у

называют условным математическим ожиданием, или средним значением Y при заданном значении X = x . Для непрерывной случайной величины его

¥

вычисляют в виде M (Y / x) = ò уf ( у / х). Если условные математические

ожидания при разных значенияхX соединить, то получится линия, называемая линией регрессии Y на X. Уравнение этой линии называют уравнением регрессии Y на X (см. рис. 2.14.1, на котором точками показаны возможные значения двумерной случайной величины ( X ,Y ) ).

 

 

Рис. 2.14.1

 

 

Корреляционной зависимостью Y от X

называется функциональная

зависимость

условного

среднего

значенияY

от X. Графиком

корреляционной зависимости служит линия регрессии. Например, рост человека X и его вес Y связаны статистической зависимостью. Для каждого значения роста существует целое распределение возможных значений веса. Между этими величинами существует и корреляционная зависимость, которая для людей зрелого возраста выражается известной формулой:

Y (кг) = X (см) – 100.

Вместе с изменением условного среднего значения может изменяться и разброс Y относительно условного среднего значения. При каждом

141

значении

X = x можно

вычислить дисперсию соответствующих значений

Y. Эту

дисперсию

называютусловной дисперсией.

Например, для

дискретной случайной величины условная дисперсия равна s2 (Y / x=) å[y - М (Y / x)]2 p ( y / x).

y

Всякую зависимость изучают для того, чтобы уметь по известному значению одной величины предсказывать значение . другойПри статистической зависимости между величинами можно использовать для прогноза линию регрессии. Если стало известно, что X = x , то в качестве предполагаемого значения Y можно назвать соответствующее условное среднее значение M (Y / x) , т.е. ординату линии регрессии при данномx. Если Y принимает значение y, то y M (Y / x) будет ошибкой прогноза и величину s(Y / x) можно рассматривать как среднюю квадратическую ошибку прогноза Y по значению X при указанном способе действий.

Представление о среднем квадрате ошибки прогнозаY по линии регрессии дает средняя из условных дисперсий

 

s2 (Y / X )

å=s2 (Y / х) Р( X = х) .

 

 

 

 

 

 

х

 

 

 

 

 

Здесь

значения s2 (Y / x)

взяты

с

учетом

вероятности

каждого

значения x.

Величина s2 (Y / x)

равна

среднему

квадрату

отклонения

значений Y от линии регрессии. Ее можно записать в виде

 

 

 

s2 (Y / X=)

 

M [ X - M (Y / X )]2.

 

 

 

Заметим, что при прогнозеY по

любой другой линии

средний

квадрат ошибки прогноза будет больше. В самом деле, для любой

постоянной а

 

 

 

 

 

 

 

 

M ( X а)2 = M [ X M ( X ) + M ( X ) – a]2

M=[ X M ( X )]2 +

 

 

+2[M ( X ) – a]M [ X M ( X )] + M [M ( X ) – a]2.

 

 

Второе

слагаемое

в

правой

части

равно,

так нулюкак

M [ X M ( X )] = M ( X ) – M ( X ) = 0. Третье

слагаемое, очевидно, неотрица-

тельно. Поэтому

 

 

 

 

 

 

 

 

M ( X а)2 ³ M[ X M ( X )]2.

 

 

 

Равенство возможно лишь при а = M ( X ). Это означает, что средняя квадратическая ошибка прогноза будет наименьш, ейсли случайную величину прогнозировать по ее среднему значению. Линия регрессии проходит через условные средние значенияY. Поэтому можно утверждать,

что линия регрессииминимизирует среднюю квадратическую ошибку прогноза случайной величины Y по наблюдаемому значению величины X.

142

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]