Аналогично определяются условное математическое ожидание M (Y x) и функция регрессии Y на X M (Y x) = y(x).
Линейная регрессия. Прямые линии среднеквадратической регрессии. Метод наименьших квадратов
Рассмотрим двумерную с. в. (X ,Y ) , где X и Y — зависимые с. в. и представим одну из величин как функцию другой. Подобное представление в общем случае может быть только приближенным.
Ограничимся простейшим случаем линейной зависимости:
Y g (X ) = aX + b ,
где a и b — параметры, подлежащие определению. Чаще всего для этого используется метод наименьших квадратов.
Функция g (X ) = aX + b называется наилучшим приближением Y в смысле метода наименьших квадратов (МНК), если математиче
ское ожидание |
M |
йY - g |
( |
X |
|
щ2 |
принимает наименьшее возможное |
|
л |
|
|
|
|
)ы |
|
значение; функцию g (X ) называют среднеквадратической регрессией |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Y на X . |
|
|
|
|
|
|
|
|
|
|
|
|
|
Используя МНК, найдем коэффициенты уравнения регрессии. |
Рассмотрим математическое ожидание квадрата отклонения |
|
|
|
|
|
|
|
|
|
|
|
л |
|
|
|
|
|
|
( |
|
)ы |
|
|
[ |
|
|
] |
|
( |
|
|
) , |
|
|
|
|
|
|
|
|
|
M йY - g |
|
X |
|
щ2 |
= M Y - aX - b 2 = F |
|
a,b |
|
|
|
которое зависит от неизвестных параметров a и b . Обозначим |
M |
( |
X |
) |
= m |
M Y |
= m |
y , |
s |
|
= D |
( |
X |
) , |
s |
|
= D Y |
r = |
mxy |
|
— ко |
|
|
s s |
|
|
|
|
x , |
( ) |
|
|
|
|
x |
|
|
|
|
|
|
y |
( ) , |
|
|
|
|
|
|
|
|
|
|
|
эффициент корреляции величин X и Y . |
|
|
x |
|
y |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
F (a,b) = s2y + a2s2x - 2asxsyr + (my - amx - b)2 . |
|
|
|
|
|
|
Исследование F (a,b) |
на экстремум приводит к системе: |
|
|
м |
¶F |
|
2 |
- 2sxsyr |
- 2mx (my - amx - b), |
|
|
|
|
|
|
|
|
|
п |
¶a |
= 2asx |
|
|
|
|
|
|
|
|
|
п |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
н |
¶F |
= -2(my - amx - b) = 0, |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
п |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
п |
¶b |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
о |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
решение которой a = r |
sy |
|
|
, b = my |
- r |
sy |
mx . При этих значениях a и |
s |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
x |
|
|
|
|
|
|
|
|
|
|
|
s |
x |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
b F (a,b) минимальна.
Линейная среднеквадратическая регрессия Y на X имеет вид
|
g (X ) = aX + b = r |
sy |
X + my - r |
sy |
mx = my + r |
sy |
(X - mx ) . |
|
|
|
|
|
|
|
|
|
|
|
s |
x |
|
s |
x |
|
s |
x |
|
|
|
|
|
|
|
|
|
|
|
|
|
Коэффициент a = r |
|
s |
|
называется коэффициентом регрессии Y на X , |
|
|
y |
|
|
|
s |
|
а прямая y = my |
|
x |
|
sy |
(x - mx ) — прямой среднеквадратической |
|
+ r |
|
s |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
x |
|
|
|
|
|
|
|
|
|
|
регрессии Y на X .
Минимальное значение F (a,b)min = s2y (1- r 2 ), достигающееся при найденных выше значениях параметров a и b , называется остаточной дисперсией случайной величины Y относительно случайной ве личины X ; она описывает величину ошибки, возникающей при за
мене Y линейной функцией g (X ) = aX + b . Если r = ±1 , остаточная дисперсия равна нулю, так как в этом случае X и Y связаны строгой, а не приближенной линейной функциональной зависимостью.
Аналогично построенной функции среднеквадратической ре грессии Y на X можно построить среднеквадратическую регрессию
X на Y : h(Y ) = mx + r sx (Y - my ), sy
для которой r sx — коэффициент регрессии X на Y , sy
x = mx + r sx (y - my ) — прямая среднеквадратической регрессии X sy
на Y , s2x (1- r 2 ) — остаточная дисперсия величины X относительно величины Y .
Из уравнений прямых среднеквадратической регрессии видно, что они обе проходят через центр рассеяния — точку с координатами
(mx ,my ) . Если r = ±1 , то обе прямые регрессии совпадают.
ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ ТЕОРИИ ВЕРОЯТНОСТЕЙ
Предельные теоремы устанавливают связь между теоретически ми и наблюдающимися характеристиками случайных величин при
большом числе наблюдений.
Закон больших чисел
При большом числе случайных явлений средний их результат практически не является случайным и может быть предсказан с боль шой степенью определенности. Условия, при которых совокупный
результат воздействия случайных факторов практически перестает быть случайным, описываются в нескольких теоремах, которые носят общее название закона больших чисел.
Сходимость по вероятности. Последовательность с. в. X1, X2,..., Xn,... |
сходится по вероятности к величине A (случайной или неслучайной), |
если n®Ґ |
{ |
|
n |
} |
, что записывается как |
|
n |
n®Ґ |
. |
lim P |
|
X |
|
- A |
< e =1 |
|
X |
ѕѕѕP ®A |
|
(ЗБЧ в форме Чебышева). Если с. в. X1, X2,..., Xn,... 1) попарно независимы и 2) их дисперсии ограничены, D (Xi ) ЈC , то
1 |
n |
1 |
n |
|
еXi ѕnѕѕ®Ґ® |
|
еM (Xi ). |
|
P |
|
|
n i=1 |
n i=1 |
(ЗБЧ в форме Маркова). Если X1, X2,…, Xn |
— зависимые с. в. и если |
1 |
|
й n |
|
щ |
n®Ґ |
, то |
1 |
n |
|
i |
|
n®Ґ |
1 |
n |
|
( |
|
i ). |
2 |
D |
ке |
X |
i ъ |
|
е |
X |
|
|
е |
M |
X |
|
|
|
|
ѕѕѕ®0 |
|
|
|
|
ѕѕѕ® |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
P |
|
|
|
|
|
|
|
n |
|
л i=1 |
|
ы |
|
|
n i=1 |
|
|
|
|
n i=1 |
|
|
|
|
Центральная предельная теорема (ЦПТ)
Группа теорем, устанавливающих связь между функцией рас пределения суммы с. в. и ее предельной формой — нормальным зако
ном распределения. Ниже приведен простейший вариант ЦПТ.
Пусть с. в. X |
1, X2,..., Xn,... независимы, имеют одинаковое распреде |
ление, конечные математическое ожидание M (Xi |
) = a и дисперсию |
|
D (Xi ) = s2 . Распределение стандартной (т. е., центрированной |
|
и нормированной) суммы этих величин Zn |
при n∞ стремится |
|
|
|
|
|
|
|
|
|
|
к стандартному нормальному: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
|
|
ж |
n |
|
ц |
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
еXi - M з еXi ч |
|
еXi - na |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Zn = |
i=1 |
|
|
и i=1 |
|
ш |
= |
i=1 |
|
, |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ж |
|
ц |
|
s |
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
D з |
еXi |
ч |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
и i=1 |
|
ш |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
x |
t2 |
|
F |
( |
x |
) |
= P |
( |
Z |
|
< x |
) |
ѕѕѕ®F |
x,0,1 |
|
|
|
F |
x,0,1 = |
|
|
e- |
2 dt |
. |
|
|
|
|
|
|
|
Zn |
|
|
|
n |
|
n®Ґ |
N ( |
|
|
), |
|
|
N ( |
|
) |
|
2p -тҐ |
|
Таким образом, при достаточно большом n сумма Zn |
приближенно |
распределена по стандартному нормальному закону: Zn N (0,1) . |
Это означает, что сумма Sn = X1 + X2 +... + Xn |
приближенно распре |
делена по нормальному закону: Sn |
N (na, ns) с математическим |
ожиданием na и средним квадратическим отклонением |
|
ns . Ины |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
|
|
|
|
|
ми словами этот факт выражают так: при n∞ с. в. еXi |
асимптоти- |
|
|
|
|
|
|
|
|
|
|
|
|
чески нормальна. |
|
i =1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Существуют варианты ЦПТ, не требующие одинаковости слагаемых.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1.Вентцель Е.С. Теория вероятностей / Е. С. Вентцель. М.: Высшая школа, 1998.
2.Гмурман В.Е. Теория вероятностей и математическая ста тистика / В.Е. Гмурман. М.: Высшая школа, 1998.
3.Гмурман В.Е. Руководство к решению задач по теории ве роятностей и математической статистике / В. Е. Гмурман. М.: Высшая школа, 1998.
4.Агапов Г.И. Задачник по теории вероятностей / Г.И. Ага пов. М.: Высшая школа, 1994.
5.Сборник задач по математике для втузов/ под ред. А.В. Ефимова. М.: Наука, 1990.
6.Алгебра для 9 класса / под ред. Н.Я. Виленкина. М.: Про свещение, 1996.