Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Задача 3.doc
Скачиваний:
866
Добавлен:
01.04.2015
Размер:
3.24 Mб
Скачать

§ 20. Линейная регрессия. Прямые линии среднеквадратической регрессии

Рассмотрим двумерную случайную величину (X,Y), где X и Y - зависимые случайные величины. Представим одну из величин как функцию другой. Ограничимся приближенным представлением (точное приближение, вообще говоря, невозможно) величины Y в виде линейной функции величины X:

,

где и- параметры, подлежащие определению. Это можно сделать различными способами: наиболее употребительный из них - метод наименьших квадратов.

Функцию называют «наилучшим приближением» Y в смысле метода наименьших квадратов, если математическое ожидание М [Yg(X)]2 принимает наименьшее возможное значение; функцию g(x) называют среднеквадратической регрессией Y на X.

Теорема. Линейная средняя квадратическая регрессия Y на X имеет вид

,

где тх=M(X), тy=M(Y), , ,r = μху /(σxσy) - коэффициент корреляции величин X и Y.

Доказательство. Введем в рассмотрение функцию двух независимых аргументов и:

.

Учитывая, что М (X—тх)(Ymy )= 0, M[(X—mx)*(Y-my)]= μху=r σxσy,

и выполнив выкладки, получим

.

Исследуем функцию на экстремум, для чего приравняем нулю частные производные:

Отсюда

,.

Легко убедиться, что при этих значениях ирассматриваемая функция принимает наименьшее значение.

Итак, линейная средняя квадратическая регрессия Y и X имеет вид

,

или

.

Коэффициент называюткоэффициентом регрессии Y наX, а прямую

(**)

называют прямой среднеквадратической регрессии Y на X.

Подставив найденные значения ив соотношение (*), получим минимальное значение функцииF (,), равное(1 -r2). Величину (1 -r2) называют остаточной дисперсией случайной величины Y относительно случайной величины X; она характеризует величину ошибки, которую допускают при замене Y линейной функцией g(X)=+X. При r = ±1 остаточная дисперсия равна нулю; другими словами, при этих крайних значениях коэффициента корреляции не возникает ошибки при представлении Y в виде линейной функции от X.

Итак, если коэффициент корреляции r = ± 1, то Y и X связаны линейной функциональной зависимостью.

Аналогично можно получить прямую среднеквадратической регрессии X на Y:

(***)

(- коэффициент регрессии X на Y) и остаточную дисперсию(1 -r2)величины X относительно Y.

Если r = ±1, то обе прямые регрессии, как видно из (**) и (***), совпадают.

Из уравнений (**) и (***) следует, что обе прямые регрессии проходят через точку (тх, mу), которую называют центром совместного распределения величин X и Y.

§ 21. Линейная корреляция. Нормальная корреляция

Рассмотрим двумерную случайную величину (X, Y). Если обе функции регрессии Y на X и X на Y линейны (см. § 15), то говорят, что X и Y связаны линейной корреляционной зависимостью. Очевидно, что графики линейных функций регрессии - прямые линии, причем можно доказать, что они совпадают с прямыми среднеквадратической регрессии (см. § 20). Имеет место следующая важная теорема.

Теорема. Если двумерная случайная величина (X, Y) распределена нормально, то X и Y связаны линейной корреляционной зависимостью.

Доказательство. Двумерная плотность вероятности (см. § 19)

, (*)

где , . (**)

Плотность вероятности составляющей X (см. § 19, замечание)

. (***)

Найдем функцию регрессии М (Y|х), для чего сначала найдем условный закон распределения величины Y при Х = х [см. § 14, формула (**)]:

.

Подставив (*) и (**) в правую часть этой формулы выполнив выкладки, имеем

.

Заменив и и v по формулам (**), окончательно получим

.

Полученное условное распределение нормально с математическим ожиданием (функцией регрессии Y на X)

и дисперсией .

Аналогично можно получить функцию регрессии X на Y:

.

Так как обе функции регрессии линейны, то корреляция между величинами X и Y линейная, что и требовалось доказать.

Принимая во внимание вероятностный смысл параметров двумерного нормального распределения (см. § 19), заключаем, что уравнения прямых регрессии

,

совпадают с уравнениями прямых среднеквадратической регрессии (см. § 20).

Задачи

1. Найти законы распределения составляющих дискретной двумерной случайной величины, заданной законом распределения

Y

X

x1

x2

x3

y1

y2

0,12

0,10

0,18

0,11

0.10

0,39

Отв. X x1 x2 x3 Y y1 y2

p 0,22 0,29 0,49 p 0,40 0,60

2. Найти вероятность того, что составляющая X двумерной случайной величины примет значение X < 1/2 и при этом составляющая Y примет значение Y < 1/3, если известна функция распределения системы

.

Отв. Р (Х < 1/2, Y < 1/3) = 9/16.

3. Найти вероятность попадания случайной точки (X; Y) в прямоугольник, ограниченный пряными x=π/4, x = π/2, у = π/6, у = π/3, если известна функция распределения

F (х, у) = sin x sin у (0х ≤ π/2, 0yπ/2).

Отв. P (π/4 < X < π/2, π/6 < Y < π/3) = 0,11.

4. Найти плотность распределения системы двух случайных величин по известной функции распределения

F (х, у)=(1-2x)(1-3y) (x0, y0).

Отв..

5. Внутри прямоугольника, ограниченного прямыми x = 0, x = π/2, у = 0, y = π/2, плотность распределения системы двух случайных величин f(x, ,y)=C sin (x + y); вне прямоугольника f(x, y) = 0. Найти: а) величину С; б) функцию распределения системы.

Отв. а) С = 0,5; б) F(x, у) =0,5 [sin x + sin у—sin (x + y)] (0xπ/2, 0yπ/2).

6. Система двух случайных величин распределена равномерно: в прямоугольнике, ограниченном прямыми х = 4, х = 6, y=10, у = 15, функция f (x, у) сохраняет постоянное значение, а вне этого прямоугольника она равна нулю. Найти: а) плотность f (х, у) совместного распределения; б) функцию распределения системы.

Отв. а) f(x,y)=

б) F(x,y)=.

7. Плотность совместного распределения системы двух случайных величин

f(x,y)=.

Найти: а) величину C; б) функцию распределения системы.

Отв. а)C=62 ; б) F(x,y)=.

8. Двумерная случайная величина задана плотностью совместного распределения

.

Найти условные законы распределения составляющих.

Отв. ;.

ЧАСТЬ ТРЕТЬЯ

ЭЛЕМЕНТЫ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

Глава пятнадцатая

ВЫБОРОЧНЫЙ МЕТОД