Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Lektsia_06_new_MS_end

.pdf
Скачиваний:
13
Добавлен:
14.04.2015
Размер:
360.23 Кб
Скачать

МАТЕМАТИЧЕСКАЯ

СТАТИСТИКА

ЛЕКЦИЯ 13, 14

РАЗДЕЛ 6

ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА

6.01. Исходные предположения

6.02. Метод наименьших квадратов

6.03. Статистический анализ регрессионной модели

6.04. Выбор допустимой модели регрессии

1

6.01. Исходные предположения

После обнаружения стохастических связей между изучаемыми переменными величинами (см. тему 5) исследователь приступает к математическому описанию интересующих его зависимостей. Для достижения этой цели ему необходимо решить следующие задачи:

подобрать класс функций, в котором целесообразно искать наилучшую (в определенном смысле) аппроксимацию искомой зависимости;

найти оценки для неизвестных значений параметров, входящих в уравнение искомой зависимости;

установить адекватность полученного уравнения искомой зависимо-

сти;

выявить наиболее информативные входные переменные (факторы). Совокупность перечисленных задач и составляет предмет исследова-

ний регрессионного анализа.

Во многих прикладных задачах требуется построить математическую модель, связывающую входные переменные (факторы) X1, , Xp и выход-

ное переменное (отклик) Y . В дальнейших рассуждениях будем предполагать, что Y является случайной величиной при каждом фиксированном на-

боре x =(x1, , xp ) значений переменных X =(X1, , Xp ) . В этом случае

искомая математическая модель может быть представлена в следующем виде:

Y = f (x) + ε(x) ,

(6.1)

где f (x) – скалярная функция, ε(x) – случайная ошибка, т.е. случайная составляющая, порожденная либо действием случайных факторов, не включенных в набор X1, , Xp , либо случайными ошибками измерений величины f (x) , либо и тем и другим одновременно.

Будем считать, что для каждого x математическое ожидание ε(x) равно нулю, т.е. отсутствует систематическая погрешность модели. Следовательно, для условного математического ожидания y(x) = M(Y|X = x) вы-

ходного переменного Y при условии, что вектор входных переменных X принял значение x , согласно (6.1), имеем y(x) = f (x) .

2

Функцию f (x) , описывающую зависимость условного среднего значения y(x) выходного переменного Y от заданных фиксированных значений

входных переменных X1, , Xp , называют функцией регрессии (или регрес-

сией).

Функция регрессии полностью определена, если известен условный за-

кон распределения выходного переменного Y при условии, что X = x . Поскольку в реальных ситуациях никогда не располагают такой информацией,

то обычно ограничиваются поиском подходящей аппроксимации fa (x)

для

 

 

 

 

 

 

 

f (x) , основываясь

на

статистических данных

вида (x i, yi ) , i =1, n ,

где

x i =(xi, , xi ) . Эти данные есть результат n

независимых наблюдений

1

p

 

 

 

 

 

 

 

 

y1, , yn

случайной

величины

Y

при значениях входных переменных

x 1 =(x1, , x1 ) , x 2 =(x2

, , x2 ) ,

...,

x n =(xn , , xn ) , т.е. результат специаль-

1

p

1

p

 

1

p

 

но организованного эксперимента.

Говоря о подходящей аппроксимации функции f (x) модели регрессии,

нужно, во-первых, задать класс допустимых моделей регрессии F , т.е.

класс функций, среди которых будем искать наилучшую аппроксимирующую функцию fa (x) , и, во-вторых, выбрать критерий, по которому будем полу-

чать наилучшую аппроксимирующую функцию fa (x) из заданного класса F .

Чтобы задать

критерий, используют

функцию ρ(εf (X)) , где

εf (X) = f (X) fa (X)

– случайная величина, а

ρ(u) – некоторая неотрица-

тельная функция аргумента как правило, неубывающая и выпуклая, например ρ = u2 или ρ = u .

Функцию fa (x) считают наилучшей аппроксимирующей функцией из за-

данного класса F , если она обеспечивает минимальное значение функционала

 

 

1

n

(fa ) = Mρ(εf (X))

или n (fa ) =

ρ(εf (x i )) ,

n

 

 

i=1

где усреднение проводится по всем возможным значениям случайного вектора X в первом равенстве и по всем имеющимся наблюдениям – во вто-

 

3

ром.

 

В случае функции

ρ = u2 получаемую регрессию называют средней

квадратичной, а метод,

реализующий минимизацию функционала n (fa ) ,

принято называть методом наименьших квадратов (МНК). Далее будем рассматривать только этот тип регрессии. Поэтому, говоря о регрессии, будем опускать слова “средняя квадратичная”.

В дальнейшем будем предполагать, что класс F допустимых моделей регрессии можно задать некоторым параметрическим семейством функций,

т.е. представить в виде

F

= {f (x; β)} ,

β m . Тогда задача отыскания

 

β

a

 

наилучшей аппроксимации для f (x) сводится к определению таких значений

параметров β , при которых n (fa ) достигает минимума.

Следует отметить, что проблема выбора параметрического семейства функций являясь ключевой в регрессионном анализе, не имеет, к сожалению, формализованных процедур для своего решения. Иногда выбор опре-

деляют на основе экспериментальных данных (x i, yi ) , i =1, n , чаще – из

теоретических соображений.

Например, если известно, что скорость протекания химической реакции между некоторыми компонентами пропорциональна объему исходного вещества, то объем вещества V(t) в момент t изменяется по экспоненциальному закону

V(t) = θ0eθ1 (tt0 ) , t >t0 ,

где θ0 , θ1 – неизвестные параметры модели, которые нужно оценить наи-

лучшим образом по результатам наблюдений, а t0 – начальный момент

времени.

К сожалению, такие случаи редки. Более реальной является ситуация, когда о механизме явления ничего не известно и можно лишь предполагать, что искомая функция f (x) является достаточно гладкой. Тогда аппроксими-

рующая ее функция fa (x) может быть представлена в виде линейной комби-

нации некоторого набора линейно независимых базисных функций {ψk (x)} , k = 0, m 1 , т.е. в виде

 

 

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

m1

 

 

 

 

 

 

fa (x; β) = βT ψ(x) = βk ψk (x) ,

(6.2)

 

 

 

 

 

 

 

k=0

 

 

где

β =(β

, β , , β

)T

вектор

неизвестных

параметров;

 

0

1

 

m1

 

 

 

 

 

ψ =(ψ , ψ , , ψ

)T

– вектор базисных функций (известных заранее); m

0

1

m1

 

 

 

 

 

 

 

число неизвестных параметров βk

в общем случае неизвестная величина,

уточняемая в ходе построения модели.

 

 

Следует заметить, что, согласно (6.2), функция fa (x) = fa (x; β) является

линейной по параметрам, представленным вектором β . Поэтому в рассмат-

риваемом случае говорят о модели, линейной по параметрам.

Другими словами, исходный класс функций F , содержащий истинную функцию регрессии f (x) , заменяют некоторым классом Fβ = {fa (x; β)} ,

β m , более простых по структуре функций, представимых в виде (6.2), и задача сводится к наилучшей оценке вектора неизвестных параметров

β =(β0, β1, , βm1)T .

При такой постановке задачи общая погрешность

n

=(yi fa (x i ))2

i=1

от аппроксимации результатов наблюдений

y

i

= f (x i ) +ε

i =1, n ,

 

i

 

полученных в эксперименте, значениями функции fa (x) Fβ обусловлена

рассеянием отклика Y относительно истинной регрессии f (x) , т.е. величиной

n

ε = (yi f (x i ))2

i=1

исистематической погрешностью аппроксимации, связанной с заменой ис-

ходного класса функций F более узким Fβ F :

n

a = (f (x i ) fa (x i ))2 .

i=1

5

Следовательно, приближение f (x) fa (x; β) (см. 6.2) нужно понимать в том смысле, что систематической погрешностью a при замене класса F

на Fβ можно пренебречь по сравнению со случайной погрешностью ε .

Именно на сопоставлении этих двух типов погрешностей и основаны прави-

ла проверки адекватности модели fa (x; βˆ) = fˆa (x) , где вектор параметров β

заменен значением вектора оценок βˆ .

Одним из наиболее распространенных аппроксимирующих классов функций Fβ является класс полиномов, в котором в качестве базисных

функций выбраны степени переменных x1, , xp .

Простейшей полиномиальной моделью является модель 1-го порядка, линейная по всем переменным:

m1

fa (x) = βkxk , m p +1

k=0

где x0 1 – фиктивное переменное, т.е. здесь ψ0(x) 1 , ψ1(x) = x1 , …,

ψm1(x) = xm1 .

Следует подчеркнуть, что представление (6.2) является самым общим видом линейной по параметрам модели и описывает не только полиноми-

альные модели. Например, в качестве базисных функций ψk (x) могут высту-

пать тригонометрические функции sin kx , cos kx , показательные ekx и др. Если неизвестная функция регрессии f (x) представлена в виде (6.2), то

задача ее поиска сведена тем самым к оценке вектора неизвестных параметров β =(β0, β1, , βm1)T и последующей проверке качества аппроксима-

ции f (x) fa (x) , т.е. адекватности модели fa (x) . Если модель (6.2) окажется неадекватной, то вид аппроксимирующей функции fa (x) нужно уточнять ли-

бо увеличением числа m базисных функций, либо заменой самих базисных функций другими, более подходящими.

Матричная форма записи линейной регрессионной модели. Резуль-

таты эксперимента для исследования связи между откликом Y и вектором

 

 

 

 

 

 

 

6

факторов X =(X1, , Xp )

удобно представлять в виде матрицы D исход-

ных данных:

 

 

 

 

 

 

 

x 1

x 2

x i

x n

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ri = N ,

 

 

r2

ri

 

,

D = r1

rn

 

 

y 2

yi

 

 

 

y

1

yn i=1

 

 

 

 

 

 

 

 

где x i =(x1i, , xpi ) , i =1, n , – различные значения вектора факторов X , для которых проводился эксперимент; ri – число независимых повторных (па-

раллельных) опытов для x i ;

N – общее число наблюдений за откликом Y ;

 

 

 

 

yi =(yi1, , yir ) ,

i =1, n , – значения отклика Y , полученные в эксперименте

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

для значения x i

вектора факторов. Заметим, что матрицу

 

 

 

 

 

1

x

2

x

i

x

n

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

,

 

 

 

P =

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

r

r

r

 

 

 

 

 

r

 

 

 

 

 

 

 

1

 

2

 

 

i

 

n

 

образованную двумя первыми строками матрицы D , называют часто планом эксперимента, совокупность возможных значений вектора факторов X

называют факторным пространством и обозначают Xp .

Если ri =1 ,

i =1, n , то результаты эксперимента представляют собой

 

 

 

 

 

 

 

 

 

n точек (x i, yi ) ,

i =1, n , в пространстве

p+1

 

 

 

 

Для удобства дальнейших рассуждений в соответствии с равенством

(6.1) будем

считать, что значению

x i =(xi

, , xi )

вектора факторов

 

 

 

 

 

1

 

 

p

 

Xi =(Xi, , Xi )

соответствует отклик Y

и случайная ошибка ε = ε(x i ) , т.е.

1

p

 

 

i

 

 

 

 

i

 

 

 

 

Y = f (x i ) +ε .

 

 

 

(6.3)

 

 

 

 

i

i

 

 

 

 

При этом в случае модели, линейной по параметрам, согласно (6.2),

имеем

 

 

 

 

 

 

 

 

 

 

 

 

 

m1

 

 

 

 

 

 

 

 

 

Yi = βk ψk (x i ) +εi , i =1, n .

(6.4)

 

 

 

 

k=0

 

 

 

 

 

Если на основе системы равенств (6.4), которая содержит в себе всю информацию, полученную в эксперименте, мы сумеем оценить неизвестные

параметры βk (некоторым наилучшим образом), т.е. сумеем найти значения

7

βˆk βk , то тем самым будет найдена наилучшая (для выбранных базисных функций) модель следующего вида:

 

 

m1

 

 

fˆa (x) = βˆk ψk (x) .

(6.5)

 

 

k=0

 

Эта модель будет наилучшей в классе Fβ для выбранного набора ба-

 

 

 

 

зисных функций ψk (x) , k =1, m 1 . При этом общую погрешность

можно

уменьшить лишь за счет уменьшения погрешности аппроксимации

a , свя-

занной с выбором класса аппроксимирующих функций Fβ (если удачно по-

добрать как сами функции ψk (x) , так и их количество m ).

Таким образом, модель (6.5) требует в общем случае проверки на адекватность (на соответствие результатам эксперимента) и при необходимости уточнения (это рассмотрено ниже, см. п. 6.3).

Введем в рассмотрение следующие матрицы:

матрицу отклика Y =(Y1, ,Yn )T типа n ×1 , если повторных опытов

не было (т.е. ri =1 , i =1, n ), или матрицу выборочных средних значений отклика Y типа n ×1 в противном случае, i элемент которой есть:

 

 

 

 

 

 

1

r

 

 

 

 

 

 

 

 

 

 

 

 

 

=

i Yij , i =

1, n

;

 

 

 

 

 

 

Yi

 

 

 

 

 

 

r

 

 

 

 

 

 

 

 

 

 

 

i

j=1

 

 

 

 

 

 

 

 

 

 

матрицу F базисных функций (матрицу наблюдений) типа n ×m

 

ψ (x 1)

ψ (x 1)

ψ (x 1)

 

 

 

0

 

 

 

 

1

 

 

 

m1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

)

ψ (x

2

)

ψ

(x

2

 

 

 

ψ (x

 

 

 

)

 

 

 

0

 

 

 

 

1

 

 

 

m1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

;

 

F =

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

n

 

 

 

 

 

n

 

 

 

 

 

 

 

)

ψ (x

)

ψ

(x

 

 

 

ψ (x

 

 

 

)

 

 

 

0

 

 

 

 

1

 

 

 

m1

 

 

 

 

 

матрицу (вектор-столбец) ошибок ε =(ε , , ε )T

типа n ×1 и век-

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

n

 

тор-столбец β =(β0, , βm1)T параметров модели.

Тогда систему равенств (6.3) можно представить в матричном виде:

Y = Fβ + ε .

(6.6)

Уравнение (6.6) называют линейной регрессионной моделью. Подчерк-

нем, что линейность в этой модели понимается как линейность по парамет-

8

рам β0, β1, , βm1 , называемым также коэффициентами регрессии. По пе-

ременным X1, , Xp модель (6.6) может быть (и, как правило, так и бывает)

нелинейной.

При наличие повторных опытов в равенстве (6.6) вместо матрицы Y будет стоять матрица Y .

6.02. Метод наименьших квадратов

Матрицы F и Y в линейной регрессионной модели (6.6) содержат всю информацию, получаемую в результате эксперимента. По этим данным нам

нужно оценить вектор неизвестных параметров β =(β0, β1, , βm1)T . Для

получения оценок, как отмечалось выше, будем использовать метод наименьших квадратов. Предварительно сформулируем предположения, лежащие в его основе.

1. Mεi = 0 , i =1, n , т.е. систематическая погрешность модели отсутствует.

2. M(εiεj ) = 0 , i j , т.е. случайные ошибки некоррелированы (это огра-

ничение можно снять, если матрица ковариаций Dε вектор-столбца ошибок известна).

3. Dεi = Mεi2 = σ2 , i =1, n , т.е. в любых точках факторного пространства

Xp случайные ошибки имеют одинаковую дисперсию.

4. Значения xi переменных Xi , i = 1, p , в процессе эксперимента изме-

ряются без ошибок.

Отметим, что предположения 2 и 3 можно объединить и представить в следующем виде:

Dε = σ2In ,

где In – единичная матрица порядка n .

Четвертое предположение означает, что, согласно соотношениям (6.3), верны равенства

m1

MYi = βk ψk (x i ) , DYi = Dεi = σ2 , i = 1, n , k=0

9

которые в матричной записи имеют вид

MY = Fβ , DY = σ2In .

Подчеркнем, что никаких предположений о законе распределения слу-

чайных величин Yi , i = 1, n , мы пока не делаем.

Теорема 6.1. Пусть M = FT F – невырожденная матрица. Несмещенной эффективной оценкой в классе всех линейных оценок для параметра

β =(β0, β1, , βm1)T в линейной регрессионной модели (6.6) является оцен-

ка метода наименьших квадратов (МНК-оценка), определяемая матричным равенством:

βˆ(Yn ) =(FT F)1FTY . (6.7)

Поясним идею метода наименьших квадратов и происхождение форму-

лы (6.7). Докажем несмещенность и эффективность оценки βˆ(Yn ) в классе

линейных оценок.

Пусть отклик Y зависит лишь от одного фактора X ( p =1 ), а искомая функция регрессии M(Y | x) = f(x) имеет график, изображенный пунктирной линией на рис. 6.4. Функция f(x) нам неизвестна, известны лишь значения отклика y1, , yn , полученные в эксперименте при значениях факторов x1, , xn (на рис. 6.4 точки (xi, yi ) , i =1, n , отмечены “крестиками”).

Рис. 6.4

Неизвестную функцию f(x) на основании характера расположения экспериментальных точек (они визуально расположены вдоль прямой) естественно аппроксимировать линейной функцией fa (x; β) = β0 +β1x . Отклонения

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]