Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Харьковский национальный университет радиоэлектроники

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Lektsia_06_new_MS_end

.pdf

Скачиваний:

Добавлен:

14.04.2015

Размер:

360.23 Кб

Скачать

☆

1 / 31 2 3 > Следующая >>>

МАТЕМАТИЧЕСКАЯ

СТАТИСТИКА

ЛЕКЦИЯ 13, 14

РАЗДЕЛ 6

ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА

6.01. Исходные предположения

6.02. Метод наименьших квадратов

6.03. Статистический анализ регрессионной модели

6.04. Выбор допустимой модели регрессии

6.01. Исходные предположения

После обнаружения стохастических связей между изучаемыми переменными величинами (см. тему 5) исследователь приступает к математическому описанию интересующих его зависимостей. Для достижения этой цели ему необходимо решить следующие задачи:

–подобрать класс функций, в котором целесообразно искать наилучшую (в определенном смысле) аппроксимацию искомой зависимости;

–найти оценки для неизвестных значений параметров, входящих в уравнение искомой зависимости;

–установить адекватность полученного уравнения искомой зависимо-

сти;

–выявить наиболее информативные входные переменные (факторы). Совокупность перечисленных задач и составляет предмет исследова-

ний регрессионного анализа.

Во многих прикладных задачах требуется построить математическую модель, связывающую входные переменные (факторы) X1, …, Xp и выход-

ное переменное (отклик) Y . В дальнейших рассуждениях будем предполагать, что Y является случайной величиной при каждом фиксированном на-

боре x =(x1, …, xp ) значений переменных X =(X1, …, Xp ) . В этом случае

искомая математическая модель может быть представлена в следующем виде:

Y = f (x) + ε(x) ,

(6.1)

где f (x) – скалярная функция, ε(x) – случайная ошибка, т.е. случайная составляющая, порожденная либо действием случайных факторов, не включенных в набор X1, …, Xp , либо случайными ошибками измерений величины f (x) , либо и тем и другим одновременно.

Будем считать, что для каждого x математическое ожидание ε(x) равно нулю, т.е. отсутствует систематическая погрешность модели. Следовательно, для условного математического ожидания y(x) = M(Y|X = x) вы-

ходного переменного Y при условии, что вектор входных переменных X принял значение x , согласно (6.1), имеем y(x) = f (x) .

Функцию f (x) , описывающую зависимость условного среднего значения y(x) выходного переменного Y от заданных фиксированных значений

входных переменных X1, …, Xp , называют функцией регрессии (или регрес-

сией).

Функция регрессии полностью определена, если известен условный за-

кон распределения выходного переменного Y при условии, что X = x . Поскольку в реальных ситуациях никогда не располагают такой информацией,

то обычно ограничиваются поиском подходящей аппроксимации fa (x)							для

f (x) , основываясь		на	статистических данных			вида (x i, yi ) , i =1, n ,	где
x i =(xi, …, xi ) . Эти данные есть результат n						независимых наблюдений
1	p
y1, …, yn	случайной	величины		Y	при значениях входных переменных
x 1 =(x1, …, x1 ) , x 2 =(x2			, …, x2 ) ,	...,	x n =(xn , …, xn ) , т.е. результат специаль-
1	p	1	p		1	p

но организованного эксперимента.

Говоря о подходящей аппроксимации функции f (x) – модели регрессии,

нужно, во-первых, задать класс допустимых моделей регрессии F , т.е.

класс функций, среди которых будем искать наилучшую аппроксимирующую функцию fa (x) , и, во-вторых, выбрать критерий, по которому будем полу-

чать наилучшую аппроксимирующую функцию fa (x) из заданного класса F .

Чтобы задать	критерий, используют	функцию ρ(εf (X)) , где
εf (X) = f (X) − fa (X)	– случайная величина, а	ρ(u) – некоторая неотрица-

тельная функция аргумента как правило, неубывающая и выпуклая, например ρ = u2 или ρ = u .

Функцию fa (x) считают наилучшей аппроксимирующей функцией из за-

данного класса F , если она обеспечивает минимальное значение функционала

		1	n
(fa ) = Mρ(εf (X))	или n (fa ) =		∑ρ(εf (x i )) ,
		n
			i=1

где усреднение проводится по всем возможным значениям случайного вектора X в первом равенстве и по всем имеющимся наблюдениям – во вто-

	3
ром.
В случае функции	ρ = u2 получаемую регрессию называют средней
квадратичной, а метод,	реализующий минимизацию функционала n (fa ) ,

принято называть методом наименьших квадратов (МНК). Далее будем рассматривать только этот тип регрессии. Поэтому, говоря о регрессии, будем опускать слова “средняя квадратичная”.

В дальнейшем будем предполагать, что класс F допустимых моделей регрессии можно задать некоторым параметрическим семейством функций,

т.е. представить в виде	F	= {f (x; β)} ,	β m . Тогда задача отыскания
	β	a

наилучшей аппроксимации для f (x) сводится к определению таких значений

параметров β , при которых n (fa ) достигает минимума.

Следует отметить, что проблема выбора параметрического семейства функций являясь ключевой в регрессионном анализе, не имеет, к сожалению, формализованных процедур для своего решения. Иногда выбор опре-

деляют на основе экспериментальных данных (x i, yi ) , i =1, n , чаще – из

теоретических соображений.

Например, если известно, что скорость протекания химической реакции между некоторыми компонентами пропорциональна объему исходного вещества, то объем вещества V(t) в момент t изменяется по экспоненциальному закону

V(t) = θ0e−θ1 (t−t0 ) , t >t0 ,

где θ0 , θ1 – неизвестные параметры модели, которые нужно оценить наи-

лучшим образом по результатам наблюдений, а t0 – начальный момент

времени.

К сожалению, такие случаи редки. Более реальной является ситуация, когда о механизме явления ничего не известно и можно лишь предполагать, что искомая функция f (x) является достаточно гладкой. Тогда аппроксими-

рующая ее функция fa (x) может быть представлена в виде линейной комби-

нации некоторого набора линейно независимых базисных функций {ψk (x)} , k = 0, m −1 , т.е. в виде

									4
							m−1
				fa (x; β) = βT ψ(x) = ∑βk ψk (x) ,					(6.2)
							k=0
где	β =(β	, β , …, β			)T	–	вектор	неизвестных	параметров;
	0	1		m−1
ψ =(ψ , ψ , …, ψ			)T	– вектор базисных функций (известных заранее); m –
0	1	m−1
число неизвестных параметров βk							в общем случае неизвестная величина,
уточняемая в ходе построения модели.

Следует заметить, что, согласно (6.2), функция fa (x) = fa (x; β) является

линейной по параметрам, представленным вектором β . Поэтому в рассмат-

риваемом случае говорят о модели, линейной по параметрам.

Другими словами, исходный класс функций F , содержащий истинную функцию регрессии f (x) , заменяют некоторым классом Fβ = {fa (x; β)} ,

β m , более простых по структуре функций, представимых в виде (6.2), и задача сводится к наилучшей оценке вектора неизвестных параметров

β =(β0, β1, …, βm−1)T .

При такой постановке задачи общая погрешность

=∑(yi − fa (x i ))2

i=1

от аппроксимации результатов наблюдений

y	i	= f (x i ) +ε	i =1, n ,
	i	i

полученных в эксперименте, значениями функции fa (x) Fβ обусловлена

рассеянием отклика Y относительно истинной регрессии f (x) , т.е. величиной

ε = ∑(yi − f (x i ))2

i=1

исистематической погрешностью аппроксимации, связанной с заменой ис-

ходного класса функций F более узким Fβ F :

a = ∑(f (x i ) − fa (x i ))2 .

i=1

Следовательно, приближение f (x) ≈ fa (x; β) (см. 6.2) нужно понимать в том смысле, что систематической погрешностью a при замене класса F

на Fβ можно пренебречь по сравнению со случайной погрешностью ε .

Именно на сопоставлении этих двух типов погрешностей и основаны прави-

ла проверки адекватности модели fa (x; βˆ) = fˆa (x) , где вектор параметров β

заменен значением вектора оценок βˆ .

Одним из наиболее распространенных аппроксимирующих классов функций Fβ является класс полиномов, в котором в качестве базисных

функций выбраны степени переменных x1, …, xp .

Простейшей полиномиальной моделью является модель 1-го порядка, линейная по всем переменным:

m−1

fa (x) = ∑βkxk , m ≤ p +1

k=0

где x0 ≡1 – фиктивное переменное, т.е. здесь ψ0(x) ≡1 , ψ1(x) = x1 , …,

ψm−1(x) = xm−1 .

Следует подчеркнуть, что представление (6.2) является самым общим видом линейной по параметрам модели и описывает не только полиноми-

альные модели. Например, в качестве базисных функций ψk (x) могут высту-

пать тригонометрические функции sin kx , cos kx , показательные ekx и др. Если неизвестная функция регрессии f (x) представлена в виде (6.2), то

задача ее поиска сведена тем самым к оценке вектора неизвестных параметров β =(β0, β1, …, βm−1)T и последующей проверке качества аппроксима-

ции f (x) ≈ fa (x) , т.е. адекватности модели fa (x) . Если модель (6.2) окажется неадекватной, то вид аппроксимирующей функции fa (x) нужно уточнять ли-

бо увеличением числа m базисных функций, либо заменой самих базисных функций другими, более подходящими.

Матричная форма записи линейной регрессионной модели. Резуль-

таты эксперимента для исследования связи между откликом Y и вектором

							6
факторов X =(X1, …, Xp )		удобно представлять в виде матрицы D исход-
ных данных:
x 1		x 2	… x i	… x n			n
							n

							∑ri = N ,
		r2	… ri	…		,
D = r1		r2	… ri	…	rn	,
		y 2	… yi	…
y	1	y 2	… yi	…	yn i=1

где x i =(x1i, …, xpi ) , i =1, n , – различные значения вектора факторов X , для которых проводился эксперимент; ri – число независимых повторных (па-

раллельных) опытов для x i ;

N – общее число наблюдений за откликом Y ;

yi =(yi1, …, yir ) ,

i =1, n , – значения отклика Y , полученные в эксперименте

для значения x i

вектора факторов. Заметим, что матрицу

…

P =

…

образованную двумя первыми строками матрицы D , называют часто планом эксперимента, совокупность возможных значений вектора факторов X

называют факторным пространством и обозначают Xp .

Если ri =1 ,		i =1, n , то результаты эксперимента представляют собой

n точек (x i, yi ) ,		i =1, n , в пространстве		p+1
Для удобства дальнейших рассуждений в соответствии с равенством
(6.1) будем	считать, что значению			x i =(xi	, …, xi )		вектора факторов
				1		p
Xi =(Xi, …, Xi )		соответствует отклик Y		и случайная ошибка ε = ε(x i ) , т.е.
1	p		i				i
			Y = f (x i ) +ε .				(6.3)
			i	i
При этом в случае модели, линейной по параметрам, согласно (6.2),
имеем
			m−1
			Yi = ∑βk ψk (x i ) +εi , i =1, n .				(6.4)
			k=0

Если на основе системы равенств (6.4), которая содержит в себе всю информацию, полученную в эксперименте, мы сумеем оценить неизвестные

параметры βk (некоторым наилучшим образом), т.е. сумеем найти значения

βˆk ≈ βk , то тем самым будет найдена наилучшая (для выбранных базисных функций) модель следующего вида:

		m−1
	fˆa (x) = ∑βˆk ψk (x) .		(6.5)
		k=0
Эта модель будет наилучшей в классе Fβ для выбранного набора ба-

зисных функций ψk (x) , k =1, m −1 . При этом общую погрешность			можно
уменьшить лишь за счет уменьшения погрешности аппроксимации			a , свя-

занной с выбором класса аппроксимирующих функций Fβ (если удачно по-

добрать как сами функции ψk (x) , так и их количество m ).

Таким образом, модель (6.5) требует в общем случае проверки на адекватность (на соответствие результатам эксперимента) и при необходимости уточнения (это рассмотрено ниже, см. п. 6.3).

Введем в рассмотрение следующие матрицы:

– матрицу отклика Y =(Y1, …,Yn )T типа n ×1 , если повторных опытов

не было (т.е. ri =1 , i =1, n ), или матрицу выборочных средних значений отклика Y типа n ×1 в противном случае, i -й элемент которой есть:

∑i Yij , i =

1, n

;

j=1

– матрицу F базисных функций (матрицу наблюдений) типа n ×m

ψ (x 1)

ψ (x 1) …

ψ (x 1)

m−1

)

ψ (x

)

…

ψ (x

)

m−1

;

F =

…

)

ψ (x

)

…

ψ (x

)

m−1

– матрицу (вектор-столбец) ошибок ε =(ε , …, ε )T

типа n ×1 и век-

тор-столбец β =(β0, …, βm−1)T параметров модели.

Тогда систему равенств (6.3) можно представить в матричном виде:

Y = Fβ + ε .

(6.6)

Уравнение (6.6) называют линейной регрессионной моделью. Подчерк-

нем, что линейность в этой модели понимается как линейность по парамет-

рам β0, β1, …, βm−1 , называемым также коэффициентами регрессии. По пе-

ременным X1, …, Xp модель (6.6) может быть (и, как правило, так и бывает)

нелинейной.

При наличие повторных опытов в равенстве (6.6) вместо матрицы Y будет стоять матрица Y .

6.02. Метод наименьших квадратов

Матрицы F и Y в линейной регрессионной модели (6.6) содержат всю информацию, получаемую в результате эксперимента. По этим данным нам

нужно оценить вектор неизвестных параметров β =(β0, β1, …, βm−1)T . Для

получения оценок, как отмечалось выше, будем использовать метод наименьших квадратов. Предварительно сформулируем предположения, лежащие в его основе.

1. Mεi = 0 , i =1, n , т.е. систематическая погрешность модели отсутствует.

2. M(εiεj ) = 0 , i ≠ j , т.е. случайные ошибки некоррелированы (это огра-

ничение можно снять, если матрица ковариаций Dε вектор-столбца ошибок известна).

3. Dεi = Mεi2 = σ2 , i =1, n , т.е. в любых точках факторного пространства

Xp случайные ошибки имеют одинаковую дисперсию.

4. Значения xi переменных Xi , i = 1, p , в процессе эксперимента изме-

ряются без ошибок.

Отметим, что предположения 2 и 3 можно объединить и представить в следующем виде:

Dε = σ2In ,

где In – единичная матрица порядка n .

Четвертое предположение означает, что, согласно соотношениям (6.3), верны равенства

m−1

MYi = ∑βk ψk (x i ) , DYi = Dεi = σ2 , i = 1, n , k=0

которые в матричной записи имеют вид

MY = Fβ , DY = σ2In .

Подчеркнем, что никаких предположений о законе распределения слу-

чайных величин Yi , i = 1, n , мы пока не делаем.

Теорема 6.1. Пусть M = FT F – невырожденная матрица. Несмещенной эффективной оценкой в классе всех линейных оценок для параметра

β =(β0, β1, …, βm−1)T в линейной регрессионной модели (6.6) является оцен-

ка метода наименьших квадратов (МНК-оценка), определяемая матричным равенством:

βˆ(Yn ) =(FT F)−1FTY . (6.7)

Поясним идею метода наименьших квадратов и происхождение форму-

лы (6.7). Докажем несмещенность и эффективность оценки βˆ(Yn ) в классе

линейных оценок.

Пусть отклик Y зависит лишь от одного фактора X ( p =1 ), а искомая функция регрессии M(Y | x) = f(x) имеет график, изображенный пунктирной линией на рис. 6.4. Функция f(x) нам неизвестна, известны лишь значения отклика y1, …, yn , полученные в эксперименте при значениях факторов x1, …, xn (на рис. 6.4 точки (xi, yi ) , i =1, n , отмечены “крестиками”).

Рис. 6.4

Неизвестную функцию f(x) на основании характера расположения экспериментальных точек (они визуально расположены вдоль прямой) естественно аппроксимировать линейной функцией fa (x; β) = β0 +β1x . Отклонения

1 / 31 2 3 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
14.04.20153.21 Mб14lecture04.pdf
#
16.09.2019196.1 Кб3Lecture_02.doc
#
16.09.2019375.3 Кб5Lecture_03.doc
#
16.03.20161.63 Mб82Lekci_html1_last.docx
#
14.04.2015344.41 Кб15Lektsia_05_new_MS_end.pdf
#
14.04.2015360.23 Кб13Lektsia_06_new_MS_end.pdf
#
18.08.2019376.32 Кб5Lektsia_3_slaydy_2012.doc
#
15.12.2018199.68 Кб11Lektsia_4_ispr_1.doc
#
13.04.2015815.1 Кб68LektsiiS.doc
#
13.04.2015233.39 Кб61LEKTsII_VMSR_Denpisal.docx
#
16.09.20192.26 Mб6LEKTsIYa_16.doc