Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Линейные регрессионные модели (96

..pdf
Скачиваний:
4
Добавлен:
15.11.2022
Размер:
280.71 Кб
Скачать

Московский государственный технический университет имени Н.Э. Баумана

Г.Е. Маркелов ЛИНЕЙНЫЕ РЕГРЕССИОННЫЕ МОДЕЛИ

Методические указания к выполнению домашнего задания

Под редакцией В.С. Зарубина

Москва Издательство МГТУ имени Н.Э. Баумана

2008

УДК 519.2 ББК 22.172 М 26

Рецензент С.Б. Ткачев

Маркелов Г.Е.

М26 Линейные регрессионные модели: Метод. указания к выполнению домашнего задания / Под ред. В.С. Зарубина. — М.: Изд-во МГТУ им.

Н.Э. Баумана, 2008. — 28 с.; ил.

Вметодических указаниях изложены подходы к решению одной из задач математической статистики — задачи построения линейной регрессионной модели по экспериментальным данным.

Для студентов, изучающих теорию вероятностей и математическую статистику, а также для аспирантов, инженерно-технических и научных работников.

УДК 519.2 ББК 22.172

© МГТУ им. Н. Э. Баумана, 2008

ВВЕДЕНИЕ

При решении многих практически важных задач в различных областях человеческой деятельности часто возникает необходимость построения математической модели объекта исследования. Под объектом исследования понимают носитель свойств и качеств, подлежащих изучению. В технике объектом исследования может быть конкретное техническое устройство, его агрегат или узел, система технических устройств, процесс, явление или отдельная ситуация в какомлибо техническом устройстве или в системе таких устройств.

Иногда объект исследования можно условно представить в виде схемы (рис. 1), которая содержит определенное количество входов и выходов. При этом выделяют входные контролируемые (или измеряемые) переменные x1, x2, ..., xn; входные неконтролируемые (или неизмеряемые) переменные e1, e2, ..., es и выходные показатели y1, y2, ..., ym — характеристики исследуемых свойств и качеств объекта.

3

e1, e2, …, es

4

2

 

 

x1,

 

y1,

x2,

 

y2,

…,

 

…,

xn

 

ym

1

Рис. 1. Структурная схема объекта исследования: 1 — объект исследования; 2 — входные контролируемые переменные; 3 — входные неконтролируемые переменные; 4 — выходные показатели

3

Переменные x1, x2, ..., xn принято называть факторами. Пространство контролируемых переменных образует факторное пространство.

Влияние переменных e1, e2, ..., es на выходные показатели может быть двояким. Если мысленно представить себе, что значения параметров x1, x2, ..., xn фиксированы, то под влиянием переменных e1, e2, ..., es выходные показатели могут изменяться закономерным или практически непредсказуемым, случайным образом. Так, например, ошибки измерительных приборов, методов анализа могут привести к изменению выходных показателей, причем такое изменение подчиняется некоторому закону, а под влиянием случайных явлений, происходящих в окружающей среде, выходные показатели могут изменяться случайным образом.

В большинстве случаев структурную схему объекта исследования можно представить в виде, изображенном на рис. 2, где влияние переменных e1, e2, ..., es заменено случайной величиной e, являющейся приведенной аддитивной составляющей выходного показателя y. При этом выходной показатель y называют откликом.

2

3

4

x1,

 

e

 

 

x2,

 

y

…,

 

xn

1

Рис. 2. Структурная схема объекта исследования: 1 — объект исследования; 2 — входные контролируемые параметры; 3 — случайная величина; 4 — выходной показатель

4

Одной из важнейших задач математической статистики является нахождение взаимосвязи между факторами и откликом при наличии входных неконтролируемых параметров. Например, зависимость между факторами и откликом можно представить в виде

y (x1, x2 , ..., xn )0 F0 (x1

, x2 , ..., xn )1 F1 (x1, x2 , ..., xn )+

2 F2 (x1, x2 , ...,

xn )+... d Fd (x1, x2 , ..., xn )+e , (1)

где β0, β1, ..., βd — коэффициенты регрессии; F0, F1, ..., Fd — линейно независимые базисные функции; e — случайная величина.

1. ПОСТАНОВКА ЗАДАЧИ РЕГРЕССИОННОГО АНАЛИЗА

Основное назначение регрессионного анализа — получение по экспериментальным данным регрессионных моделей. Далее ограничимся рассмотрением только регрессионных моделей вида (1), т. е. моделей линейных по параметрам

β0, β1, ..., βd.

Система базисных функций выбирается обычно исходя

из

априорной

информации о характере зависимости

y(x1

, x2 , , xn )

и обеспечения простоты проведения расче-

тов. В качестве базисных функций обычно используют тригонометрические функции, системы ортогональных полиномов и др. В настоящее время чаще всего применяют полиномиальные регрессионные модели.

В регрессионном анализе считают, что вид модели (1) известен полностью. Однако такая ситуация, когда заранее можно указать форму регрессионной модели, полностью соответствующей объекту исследования, встречается весьма редко. Поэтому проводят постепенное усложнение модели.

5

Например, в случае полиномиальной регрессионной модели повышают порядок полинома, начиная с линейной регрессионной модели

y (x1, x2 , ..., xn )0 1 x1 2 x2 +... n xn +e , (2)

где β0, β1, ..., βn — коэффициенты регрессии; 1, x1, ..., xn — базисные функции (F0 = 1, F1 = x1, ..., Fn = xn); e — случайная величина.

Классический регрессионный анализ может быть применен при выполнении следующих условий.

1.Случайная величина e подчиняется нормальному закону

N(0, σe).

2.Случайные величины e при различных наблюдениях некоррелированы. На практике полагают, что для обеспечения данного требования достаточно использовать рандомизацию.

3.Вклад, вносимый случайными ошибками измерения в дисперсию σe2 случайной величины e, должен быть пренебрежимо мал.

4.Векторы (f1j f2j ... fNj), составленные из значений базисных функций, являются линейно независимыми, где fij — значение j-й базисной функции Fj в i-м опыте. Это условие ограничивает общее число коэффициентов, входящих в регрессионную модель, т. е. d +1 N , где d +1 — число базисных функций; N — число опытов.

Регрессионный анализ включает в себя:

определение точечных оценок неизвестных коэффициентов регрессии и дисперсии случайной величины e;

статистический анализ полученных результатов, т. е. выявление значимых коэффициентов регрессии, проверку адекватности и работоспособности регрессионной модели.

6

2. ОЦЕНКА НЕИЗВЕСТНЫХ ПАРАМЕТРОВ РЕГРЕССИОННОЙ МОДЕЛИ

2.1. Точечная оценка коэффициентов регрессии

Исходным материалом для получения точечных оценок параметров регрессионной модели (1) являются матрица X и матрица-столбец отклика Y:

 

x

x

...

x

 

 

 

y

 

 

 

11

12

 

1n

 

 

 

1

 

 

X = x21

x22

...

x2 n

,

Y =

y2

 

,

...

...

...

...

 

 

 

...

 

 

 

 

xN 2

...

 

 

 

 

 

 

 

xN 1

xNn

 

yN

 

где xij — значение j-го фактора в i-м опыте; yi — значение отклика в i-м опыте. Численные значения всех базисных функций могут быть представлены в матричной форме следующим образом:

 

f

f

...

f

 

 

 

10

11

 

1d

 

 

F = f20

f21

...

f2d

 

,

 

 

...

...

...

 

 

...

 

 

 

fN 0

fN1

...

fNd

 

где fij = Fj(xi1, xi2, ..., xin) — значение j-й базисной функции в i-м опыте.

Для определения точечных оценок неизвестных коэффициентов регрессии могут быть использованы различные методы. Наиболее часто применяют метод наименьших квадратов (МНК).

Согласно МНК наилучшими оценками коэффициентов регрессии считают такие значения переменных z0, z1, ..., zd, при которых достигает минимума сумма квадратов отклоне-

7

ний значений отклика yi, от значений yi , полученных с помощью уравнения регрессии

yi = z0 fi0 + z1 fi1 +... + zd fid ,

т. е. наилучшие оценки определяются из условия минимума функции

Q = N [y

i

y

]2

= N

y

i

(z

0

f

i 0

+ z

f

i1

+... + z

d

f

id

) 2 .

 

 

 

 

i

 

 

 

 

 

 

1

 

 

 

 

 

 

i=1

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Если функция Q (z0 , z1 , ..., zd )

 

имеет локальный минимум

при zk = bk ,

z1 = b1 , …,

zd

= bd , то справедливы равенства

 

 

 

 

 

 

Q

(b

, b

, ..., b )= 0 , k = 0, …, d.

 

 

(3)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

zk

0

 

1

 

 

d

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Учитывая, что

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Q

 

 

 

 

 

 

 

 

 

N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(b0 , b1, ..., bd )= −2(yi

b0 fi0 b1 fi1 ... bd fid ) fik ,

 

 

 

zk

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

преобразуем (3) к виду

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N

 

d

 

 

 

 

 

 

 

N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

∑∑ fik fijbj = fik yi .

 

 

 

(4)

 

 

 

 

 

 

 

 

 

i=1

j=0

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

Тогда, решая полученную систему линейных алгебраических уравнений, можно определить искомые точечные оценки b0, b1, ..., bd, при которых функция Q (z0 , z1 , ..., zd ) достигает своего минимума.

Систему (4) называют системой нормальных уравнений

и ее можно представить в матричной форме

 

(F T F )B = F TY ,

(5)

где B = (b0 b1 ... bd )Т . Матрица F T F — симметрическая матрица порядка d +1. Если выполняется условие 4 регрессион-

8

ного анализа, то эта матрица является невырожденной. Тогда решение уравнения (5) можно записать в виде

B = С(F TY ),

(6)

где C = (F T F )1 .

Пример 1. Исполнительный механизм движется поступательно с постоянной скоростью. Результаты измерения приращения координаты центра масс механизма за время t приведены в табл. 1. Очевидно, что регрессионная модель имеет вид

s t +e ,

где s — приращение координаты за время t; e — случайная величина. Требуется найти оценку неизвестного коэффициента регрессии β.

 

Значения s(t)

Таблица 1

 

 

 

 

 

 

 

№ опыта

 

t, с

 

s, м

1

 

10

 

0,103

2

 

20

 

0,183

3

 

30

 

0,309

4

 

40

 

0,422

5

 

50

 

0,487

Для рассматриваемой регрессионной модели F0 = t, следовательно, система нормальных уравнений (4) в этом случае имеет вид

N

N

b ti2 = si ti ,

i=1

i=1

где ti — значение параметра t в i-м опыте; si — значение отклика в i-м опыте. Это позволяет записать формулу для определения оценки неизвестного коэффициента регрессии:

9

N

N

b = si ti

ti2 .

i=1

i=1

Тогда, используя данные табл. 1, имеем

b = 10 0,103 + 20 0,183 +30 0,309 +40 0, 422 +50 0, 487 =

102 + 202 +302 + 402 +502

= 55,195500 = 0,01мc.

2.2. Точечная оценка дисперсии

Кроме точечных оценок параметров βi необходима оценка дисперсии σe2 случайной величины e.

Если N > d +1 и заранее известно, что модель адекватна объекту исследования, то единственной причиной различия между значением выходного параметра и значением, предсказанным с помощью уравнения регрессии, является случайная величина e. Тогда в качестве точечной оценки дисперсии σe2 можно использовать точечную оценку остаточной дисперсии

 

1

N

 

Sост2 =

(yi yi )2 ,

(7)

ν

 

 

e

i=1

 

 

 

 

где yi — значения, предсказанные с помощью уравнения регрессии; νe = N d 1 — число степеней свободы Sост2 .

Пример 2. Определим точечную оценку дисперсии случайной величины e из примера 1.

Очевидно, что регрессионная модель из этого примера адекватна объекту исследования. Следовательно, точечная

оценка остаточной дисперсии Sост2 является здесь оценкой дисперсии случайной величины e, т. е. Se2 = Sост2 .

10

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]