- •СОДЕРЖАНИЕ
- •ЛЕКЦИЯ 7
- •7.1. Системы случайных величин. Функция и плотность распределения системы двух случайных величин. Условные законы распределения
- •7.2. Стохастическая связь. Ковариация. Коэффициент корреляции. Регрессия
- •7.3. Выборочный коэффициент корреляции. Проверка гипотезы об отсутствии корреляции
- •7.4. Приближенная регрессия. Метод наименьших квадратов
- •ЛЕКЦИЯ 8
- •8.1. Линейная регрессия от одного параметра
- •8.2. Регрессионный анализ
- •8.2.1. Проверка адекватности приближенного уравнения регрессии эксперименту
- •8.2.2. Оценка значимости коэффициентов уравнения регрессии
- •8.3. Оценка тесноты нелинейной связи
- •8.4. Аппроксимация. Параболическая регрессия
- •8.5. Приведение некоторых функциональных зависимостей к линейному виду
- •8.6. Метод множественной корреляции
- •ЛЕКЦИЯ 9
- •9.2. Двухфакторный дисперсионный анализ
- •ЛЕКЦИЯ 10
- •10.1. Планирование эксперимента при дисперсионном анализе
- •ЛЕКЦИЯ 11
- •11.1. Матрица планирования полного факторного эксперимента типа 23
- •ЛЕКЦИЯ 12
- •12.2. Описание функции отклика в области, близкой к экстремуму. Композиционные планы Бокса-Уилсона
- •12.3. Ортогональные планы второго порядка, расчет коэффицентов уравнения регрессии
ЛЕКЦИЯ 7
Системы случайных величин. Функция и плотность распределения системы двух случайных величин. Условные законы распределения. Стохастическая связь. Ковариация. Коэффициент корреляции, его свойства. Линии регрессии. Выборочный коэффициент корреляции; проверка гипотезы об отсутствии корреляции. Приближенная регрессия; метод наименьших квадратов.
7.1. Системы случайных величин. Функция и плотность распределения системы двух случайных величин. Условные законы распределения
На практике чаще всего приходится иметь дело с экспериментами, результатом которых является не одна случайная величина, а две и более, образующие систему. Свойства системы случайных величин не ограничиваются свойствами величин, в нее входящих; они определяются также взаимосвязью (зависимостями) этих случайных величин. Информация о каждой случайной величине, входящей в систему, содержится в ее законе распределения.
Рассмотрим систему из двух случайных величин Х и Y. Функцией распределения такой системы называется вероятность совместного выполнения двух неравенств
F(x, y)= P (X < x, Y < y). |
(7.1) |
Плотность распределения системы f (x, y) определяется как вторая смешанная производная F(x, y)
f (x, y)= |
∂2 F(x, y). |
(7.2) |
|
∂ x ∂y |
|
Вероятность попадания точки (Х, Y) в произвольную область D равна
P[(X ,Y ) D]= ∫∫f (x, y)dx d y . |
(7.3) |
(D) |
|
Свойства плотности распределения: |
|
1) она является неубывающей функцией: |
|
f (x, y)≥ 0 ; |
(7.4) |
2)вероятность попадания случайной точки на всю координатную плоскость равна вероятности достоверного события:
4
+∞∫+∞∫f (x, y)d x d y =1; |
(7.5) |
−∞−∞ |
|
3) функция распределения выражается через плотность распределения как
F(x, y)= ∫x |
y |
|
∫f (x, y)d x d y ; |
(7.6) |
−∞−∞
4)плотность распределения каждой из случайных величин можно получить следующим образом:
|
|
|
x +∞ |
|
|
|||
F1(x)= F(x,∞)= |
|
∫ ∫ |
f (x, y)d x d y , |
(7.7) |
||||
|
|
|
|
|
||||
|
|
−∞−∞ |
|
|
||||
|
dF (x) |
|
|
|
+∞ |
|
|
|
f (x)= |
d x |
|
|
|
|
∫ |
f (x, y)d y , |
|
1 |
|
= |
|
(7.8) |
||||
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
−∞ |
|
|
|
dF (y) |
|
+∞ |
|
||||
f2 (y)= |
|
|
|
|
= |
∫ |
f (x, y)d x . |
(7.9) |
d y |
|
|
|
|||||
2 |
|
|
|
|
−∞
Чтобы полностью охарактеризовать систему (т. е. получить ее закон распределения), кроме распределения каждой величины, входящей в систему, необходимо знать и связь между этими величинами. Эта зависимость характеризуется с помощью условных законов рас-
пределения.
Условным законом распределения величины Y, входящей в систему (X, Y), называется ее закон распределения при условии, что другая случайная величина Х приняла определенное значение х. Условная функция распределения обозначается F(y/x), плотность распределения — f (y/x). Для условных плотностей распределений справедлива
теорема умножения законов распределения:
f (x, y)= f1 |
(x) f (y / x), |
(7.10) |
f (x, y)= f2 |
(y) f (x / y). |
(7.11) |
Тогда
5
f (y / x)= |
f (x, y) |
= |
|
f (x, y) |
, |
(7.12) |
||||
f |
1 |
(x) |
|
|
∞ |
|||||
|
|
|
|
|
||||||
|
|
|
|
|
|
∫f (x, y)d y |
|
|
||
|
|
|
|
|
|
|
−∞ |
|
|
|
f (x / y)= |
f (x, y) |
= |
|
f (x, y) |
. |
(7.13) |
||||
f |
|
(y) |
|
|
||||||
|
2 |
|
|
∞ |
|
|
||||
|
|
|
|
|
|
∫f (x, y)d x |
|
|
−∞
7.2. Стохастическая связь. Ковариация. Коэффициент корреляции. Регрессия
Стохастической связью между случайными величинами называется такая связь, при которой с изменением одной величины меняется распределение другой. Функциональной зависимостью называется такая связь между случайными величинами, при которой при известном значении одной из величин можно точно указать значение другой.
В отличие от функциональной связи при стохастической связи с изменением величины Х величина Y имеет лишь тенденцию изменяться. По мере увеличения тесноты стохастической зависимости она все более приближается к функциональной, а в пределе ей соответствует. Крайняя противоположность функциональной связи — полная независимость случайных величин.
Если случайные величины независимы, то согласно теореме умно-
жения (7.10–7.11) получаем
f (y / x)= f2 (y) и f (x / y)= f1(x), |
(7.14) |
f (x, y)= f1(x)f2 (y). |
(7.15) |
Условие (7.15) можно использовать в качестве необходимого и достаточного критерия независимости двух случайных величин, если известны плотности распределения системы и случайных величин, в нее входящих.
При неизвестном законе распределения системы для оценки тесноты стохастической связи чаще всего используется коэффициент корреляции. Дисперсия суммы двух случайных величин X и Y равна
D{X +Y}= M {[X +Y − M (X +Y )]2 }= M {[X − M (X )+Y − M (Y )]2 }= = M [X − M (X )]2 + 2M {[X − M (X )][Y − M (Y )]}+ M [Y − M (Y )]2 =
6
= D(X )+ 2M {[X − M (X )][Y − M (Y )]}+ D(Y ). |
(7.16) |
Если X и Y независимы, то |
|
D(X +Y )= D(X )+ D(Y ). |
|
Тогда зависимость между X и Y существует, если |
|
M ([X −mx ][Y −my ])≠ 0 . |
(7.17) |
Величина (7.17) называется корреляционным моментом, или ковариа-
цией cov{XY}, (covxy) случайных величин. Она характеризует не только зависимость величин, но и их рассеяние.
Из (7.17) следует, что если одна из величин мало отклоняется от своего математического ожидания, то ковариация будет мала даже при тесной стохастической связи. Чтобы избежать этого, для характеристики связи используют безразмерную величину, называемую ко-
эффициентом корреляции:
r |
= |
covxy |
= |
M ([X −mx ][Y −my ]) |
, |
(7.18) |
|
|
|||||
xy |
|
σxσy |
σxσy |
|
где σx и σy — стандартные отклонения X и Y.
Случайные величины, для которых ковариация (значит, и коэффициент корреляции) равна нулю, называются некоррелированными. Равенство нулю коэффициента корреляции не всегда означает, что случайные величины X и Y независимы: связь может проявляться в моментах более высокого порядка (по сравнению с математическим ожиданием). Только в случае нормального распределения при rxy = 0 связь между случайными величинами однозначно отсутствует.
Плотность нормального распределения системы двух случайных величин выражается следующей формулой:
f (x, y)= |
1 |
×, |
2πσx σy 1− r2 |
|
1 |
|
(x − mx ) |
2 |
|
|
|
||
×exp − |
|
σ2x |
|
|
|
|
|||
|
2(1 − r 2 ) |
|
||
|
|
|
|
|
|
2r (x − mx )(y − my ) |
|
(y − my )2 |
|
||
− |
|
|
+ |
σ2y |
, (7.19) |
|
σxσy |
||||||
|
|
|
||||
|
|
|
|
|
|
где r — коэффициент корреляции. Если X и Y некоррелированы (т. е. r = 0), то из (7.19) следует, что
|
1 |
|
1 |
|
(x − m |
|
2 |
|
2 |
|
|
|
f (x, y)= |
|
|
x |
) |
|
(y − my ) |
|
|
= |
|||
|
exp − |
|
|
σ2 |
|
+ |
σ2 |
|
|
|||
2πσx σy |
2 |
|
||||||||||
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
x |
|
|
|
y |
|
|
||
|
|
|
|
|
|
|
|
|
|
|
7
= |
1 |
|
(x − m |
x |
)2 |
1 |
|
(y − my )2 |
|
2πσx |
exp − |
|
|
2πσy |
exp − |
2σ2 |
= |
||
|
|
2σ2 |
|
|
|
||||
|
|
|
x |
|
|
|
y |
|
|
|
|
|
= f1(x)f2 (y), |
|
|
(7.20) |
т. е. нормально распределенные случайные величины X и Y не только некоррелированы, но и независимы.
Отметим следующие свойства коэффициента корреляции:
1)величина rxy не меняется от прибавления к X и Y неслучайных слагаемых;
2)величина rxy не меняется от умножения X и Y на положительные числа;
3)если одну из величин, не меняя другой, умножить на –1, то на –1 умножится и коэффициент корреляции.
Тогда, если от исходных величин перейти к нормированным
X0 = X −mx , Y0 = Y − my ,
σx σy
величина rxy не изменится: rxo yo = rxy . Из (7.16) и (7.18) следует, что
σ2 (X +Y ) = σ2 ( X ) +σ2 (Y ) + 2r xy σ2 (X ) σ2 (Y ) . |
(7.21) |
Для нормированных величин σ2(X0) = σ2(Y0) = 1, тогда
σ2 (X |
0 |
+Y ) = 2 |
+ 2r . |
(7.22) |
|
0 |
xy |
|
Аналогично в случае разности (X – Y) можно получить, что
σ2 (X |
0 |
−Y ) = 2 |
− |
2r . |
(7.23) |
|
0 |
|
xy |
|
|
По определению дисперсии |
|
|
|
|
|
σ2(X0 + Y0) ≥ 0 и σ2(X0 - Y0) ≥ 0, |
|
||||
следовательно |
|
|
|
|
|
2 + 2rxy ≥ 0 , 2 −2rxy ≥ 0, |
|
||||
rxy ≥ −1, rxy |
≤1, |
|
|||
|
−1 ≤ rxy ≤1. |
|
(7.24) |
При rxy = ±1 имеем линейные функциональные зависимости вида y = b0 +b1x ,
при этом если rxy = 1, то b1 > 0; если rxy = –1, то b1 < 0.
Если мeжду величинами X и Y имеется произвольная стохастическая связь, то –1 < rxy < 1. При rxy > 0 говорят о положительной корре-
8