Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный экономический университет (бывш. ФИНЭК, ИНЖЭКОН)

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Задача 3.doc

Скачиваний:

866

Добавлен:

01.04.2015

Размер:

3.24 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 910 / 5210 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

§ 20. Линейная регрессия. Прямые линии среднеквадратической регрессии

Рассмотрим двумерную случайную величину (X,Y), где X и Y - зависимые случайные величины. Представим одну из величин как функцию другой. Ограничимся приближенным представлением (точное приближение, вообще говоря, невозможно) величины Y в виде линейной функции величины X:

где и- параметры, подлежащие определению. Это можно сделать различными способами: наиболее употребительный из них - метод наименьших квадратов.

Функцию называют «наилучшим приближением» Y в смысле метода наименьших квадратов, если математическое ожидание М [Y—g(X)]² принимает наименьшее возможное значение; функцию g(x) называют среднеквадратической регрессией Y на X.

Теорема. Линейная средняя квадратическая регрессия Y на X имеет вид

где т_х=M(X), т_y=M(Y), , ,r = μ_ху /(σ_xσ_y) - коэффициент корреляции величин X и Y.

Доказательство. Введем в рассмотрение функцию двух независимых аргументов и:

Учитывая, что М (X—т_х)=М (Y—m_y )= 0, M[(X—m_x)*(Y-m_y)]= μ_ху=r σ_xσ_y,

и выполнив выкладки, получим

Исследуем функцию на экстремум, для чего приравняем нулю частные производные:

Отсюда

Легко убедиться, что при этих значениях ирассматриваемая функция принимает наименьшее значение.

Итак, линейная средняя квадратическая регрессия Y и X имеет вид

или

Коэффициент называюткоэффициентом регрессии Y наX, а прямую

(**)

называют прямой среднеквадратической регрессии Y на X.

Подставив найденные значения ив соотношение (*), получим минимальное значение функцииF (,), равное(1 -r²). Величину (1 -r²) называют остаточной дисперсией случайной величины Y относительно случайной величины X; она характеризует величину ошибки, которую допускают при замене Y линейной функцией g(X)=+X. При r = ±1 остаточная дисперсия равна нулю; другими словами, при этих крайних значениях коэффициента корреляции не возникает ошибки при представлении Y в виде линейной функции от X.

Итак, если коэффициент корреляции r = ± 1, то Y и X связаны линейной функциональной зависимостью.

Аналогично можно получить прямую среднеквадратической регрессии X на Y:

(***)

(- коэффициент регрессии X на Y) и остаточную дисперсию(1 -r²)величины X относительно Y.

Если r = ±1, то обе прямые регрессии, как видно из (**) и (***), совпадают.

Из уравнений (**) и (***) следует, что обе прямые регрессии проходят через точку (т_х, m_у), которую называют центром совместного распределения величин X и Y.

§ 21. Линейная корреляция. Нормальная корреляция

Рассмотрим двумерную случайную величину (X, Y). Если обе функции регрессии Y на X и X на Y линейны (см. § 15), то говорят, что X и Y связаны линейной корреляционной зависимостью. Очевидно, что графики линейных функций регрессии - прямые линии, причем можно доказать, что они совпадают с прямыми среднеквадратической регрессии (см. § 20). Имеет место следующая важная теорема.

Теорема. Если двумерная случайная величина (X, Y) распределена нормально, то X и Y связаны линейной корреляционной зависимостью.

Доказательство. Двумерная плотность вероятности (см. § 19)

, (*)

где , . (**)

Плотность вероятности составляющей X (см. § 19, замечание)

. (***)

Найдем функцию регрессии М (Y|х), для чего сначала найдем условный закон распределения величины Y при Х = х [см. § 14, формула (**)]:

Подставив (*) и (**) в правую часть этой формулы выполнив выкладки, имеем

Заменив и и v по формулам (**), окончательно получим

Полученное условное распределение нормально с математическим ожиданием (функцией регрессии Y на X)

и дисперсией .

Аналогично можно получить функцию регрессии X на Y:

Так как обе функции регрессии линейны, то корреляция между величинами X и Y линейная, что и требовалось доказать.

Принимая во внимание вероятностный смысл параметров двумерного нормального распределения (см. § 19), заключаем, что уравнения прямых регрессии

совпадают с уравнениями прямых среднеквадратической регрессии (см. § 20).

Задачи

1. Найти законы распределения составляющих дискретной двумерной случайной величины, заданной законом распределения

x₁

x₂

x₃

y₁

y₂

0,12

0,10

0,18

0,11

0.10

0,39

Отв. X x₁ x₂ x₃ Y y₁ y₂

p 0,22 0,29 0,49 p 0,40 0,60

2. Найти вероятность того, что составляющая X двумерной случайной величины примет значение X < 1/2 и при этом составляющая Y примет значение Y < 1/3, если известна функция распределения системы

Отв. Р (Х < 1/2, Y < 1/3) = 9/16.

3. Найти вероятность попадания случайной точки (X; Y) в прямоугольник, ограниченный пряными x=π/4, x = π/2, у = π/6, у = π/3, если известна функция распределения

F (х, у) = sin x sin у (0≤ х ≤ π/2, 0 ≤ y ≤π/2).

Отв. P (π/4 < X < π/2, π/6 < Y < π/3) = 0,11.

4. Найти плотность распределения системы двух случайных величин по известной функции распределения

F (х, у)=(1-е^-²^x)(1-е^-³^y) (x≥0, y≥0).

Отв..

5. Внутри прямоугольника, ограниченного прямыми x = 0, x = π/2, у = 0, y = π/2, плотность распределения системы двух случайных величин f(x, _,y)=C sin (x + y); вне прямоугольника f(x,y) = 0. Найти: а) величину С; б) функцию распределения системы.

Отв. а) С = 0,5; б) F(x, у) =0,5 [sin x + sin у—sin (x + y)] (0≤x≤π/2, 0≤y≤π/2).

6. Система двух случайных величин распределена равномерно: в прямоугольнике, ограниченном прямыми х = 4, х = 6, y=10, у = 15, функция f (x, у) сохраняет постоянное значение, а вне этого прямоугольника она равна нулю. Найти: а) плотность f (х, у) совместного распределения; б) функцию распределения системы.