Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Эконометрика. Лабораторный практикум

.pdf
Скачиваний:
56
Добавлен:
04.06.2015
Размер:
609.78 Кб
Скачать

спецификации модели. Если мы строим, скажем, линейную модель регрессии, то нельзя включать в неё те переменные, зависимость от которых имеет более сложный характер.

Линейная модель множественной регрессии является естественным обобщением линейной модели парной регрессии. Предполагается, что количественный признак Y связан с объясняющими переменными X1, X2, ..., Xk линейной зависимостью

yi = a1 x1i + a2 x2i +... + ak xki + b +εi

(i =1, ..., n),

где i – номер наблюдения; εi – ошибка регрессии;

a1 , a2 ,..., ak , b – неизвестные

параметры линейной функции регрессии. Задача состоит в оценке регрессии уравнением

 

 

 

 

 

= a* x

+ a* x

 

+... + a* x

 

+b* .

y

x

,x

,...,x

 

2

k

 

k

1 1

2

k

 

 

1

2

 

 

 

 

 

 

 

Задание для лабораторной работы

В данной работе должна быть решена разными способами задача, рассмотренная в пункте 7.3 в качестве примера 13 пособия [14]. Приводим текст этой задачи.

Задание 5.1. Десять студентов имеют следующие показатели в изучении учебной дисциплины (Х1 – число выполненных домашних заданий, Х2 – число пропущенных занятий, Y – оценка на экзамене):

x1i

10

13

12

13

7

10

14

16

8

5

x2i

3

2

1

2

3

0

0

2

3

4

yi

3

4

4

5

3

3

4

5

3

2

Требуется провести подробный регрессионный анализ, оценив линейную регрессию уравнением y x1,x2 = a1* x1 + a2* x2 + b* .

Если число объясняющих переменных невелико (2 или 3), то найти выражения для оценок коэффициентов регрессии по методу наименьших квадратов можно обычным способом, решив соответствующую систему уравнений (так был решён пример 13 в [14]). При большом числе неизвестных обычно используют методы линейной алгебры, записывая систему в матричном виде. Как правило, в этих случаях система решается с помощью компьютерных программ (например, “Анализ данных” в Excel).

Для оценивания значимости коэффициентов, как и в случае парной рег-

рессии, рассчитываются их

t -статистики:

t

a j

= a* / s

, где

s

стандартное

 

 

 

 

 

j

a j

 

a j

 

 

 

>t2.cr (α, n m 1) ,

 

отклонение коэффициента

a j . Если

ta j

 

то коэффициент

регрессии a j значим. Здесь m – число параметров при переменных x (в линей-

21

ной регрессии совпадает с числом самих объясняющих переменных), а n число наблюдений.

F - статистика для проверки качества оценивания регрессии рассчитывается по формуле

 

r 2

 

 

 

 

(

 

x1 , x2 ,..., xk

 

)2

 

F =

(n m 1)

, где r

2

=

y

y

 

 

 

 

 

 

 

 

 

 

 

(1 r 2 )m

 

 

 

( yi y)2

коэффициент детерминации для уравнения множественной регрессии, и при заданном уровне значимости гипотезы α сравнивается с критической точкой распределения Фишера Fcr (α, m, n m 1) . При F > Fcr качество оценивания

признаётся достаточным.

Смысл данной лабораторной работы состоит в проведении множественного регрессионного анализа двумя способами: (1) с помощью специальной функции ЛИНЕЙН (её использование для случая одной объясняющей переменной было начато в работе 4); (2) с помощью надстройки EXCEL «Анализ данных».

Инструкция по выполнению задания

1. Вид функции ЛИНЕЙН уже знаком нам по работе 4:

ЛИНЕЙН (массив {yi }, i =1, n ; массив {x ji }, j =1, k, i =1, n ); A ; B ).

В случае изучения множественной регрессии выделяется диапазон размером 5 на k +1, где k – число объясняющих переменных. Во второе окно вводится диапазон значений объясняющих переменных. Регрессионная статистика будет выводиться в следующем порядке:

ak*

ak*1

a2*

a1*

b*

sa

k

sa

k 1

 

sa

2

sa

1

sb

 

 

 

 

 

 

r 2

s

 

 

 

 

 

 

F - статистика

n 1 k

 

 

 

 

 

 

Sr2

Se2

 

 

 

 

 

 

Вызов функции и раскрытие таблицы осуществляется так же, как это делалось в работе 4. Для задания 5.1 итоговая таблица должна принять следующий вид:

0,142777

0,291377

0,167575

0,129771

0,050513

0,744437

0,858521

0,412038

#Н/Д

21,23857

7

#Н/Д

7,211572

1,188428

#Н/Д

2. Разберитесь с содержанием полученной таблицы, сопоставьте результаты с теми значениями, которые были получены при решении примера 13. Сделайте выводы о результатах t-теста и F-теста.

3. Перейдём к рассмотрению режима «Анализ данных». Он представляет собой надстройку Excel, которая часто более удобна в работе, чем использование отдельных функций, о которых говорилось выше. В меню Сервис выберем

22

команду Анализ данных. Если пакет анализа не установлен, его надо активизировать в надстройках Сервиса. Если же в списке надстроек отсутствует данный пункт, то необходимо произвести переустановку Microsoft Office и изме-

нить состав Microsoft Excel.

В главном меню Анализа данных выберем Регрессия и нажмём OK. (Перед работой в режиме Регрессия данные обязательно должны быть сгруппированы по столбцам, а не по строкам!) Теперь следует заполнить диалоговое окно ввода данных и параметров вывода. Входной интервал Y – диапазон, содержащий значения результативного признака. Входной интервал X – диапазон, содержащий значения объясняющей переменной (регрессора), а в случае множественной регрессии – всех регрессоров. Метки – флажок, указывающий, содержит ли первая строка названия столбцов. Выходной интервал: указать подходящую ячейку на пустом месте рабочего листа, которая станет левым верхним углом выводящейся таблицы. После нажатия OK появляется итоговая таблица. Неудобство: содержимое ячеек не будет изменяться, если изменить исходные данные. Необходимо будет снова обратиться к надстройке.

Обратимся к данным задания 5.1. Для них таблица итогов должна иметь следующий вид (некоторые строки выпущены):

Регрессионная статисти-

 

 

 

 

 

 

 

ка

 

 

 

 

 

 

 

 

R-квадрат

0,858521

 

 

 

 

 

 

 

Стандартная

 

 

 

 

 

 

 

 

ошибка

0,412038

 

 

 

 

 

 

 

Наблюдения

10

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Дисперсионный

анализ

 

 

 

 

 

 

 

 

df

SS

MS

F

Значимость

F

 

 

Регрессия

2

7,2116

3,60579

21,2386

0,001065

 

 

 

Остаток

7

1,1884

0,16978

 

 

 

 

 

Итого

9

8,4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Коэф-

Стан-

t-

P-

Нижние

Верхние

Нижние

Верхние

 

фициен-

дартная

стати-

значение

95%

95%

95.0%

95.0%

 

ты

ошибка

стика

 

 

 

 

 

Y-пересечение

0,167575

0,7444

0,2251

0,82833

-1,59274

1,927886

-1,59274

1,927886

Переменная X 1

0,291377

0,0505

5,76835

0,00069

0,171933

0,410821

0,171933

0,410821

Переменная X 2

0,142777

0,1298

1,10022

0,30763

-0,16408

0,449635

-0,16408

0,449635

Здесь:

R-квадрат – это коэффициент детерминации; Стандартная ошибка – стандартная ошибка s оценки Y; Наблюдения – объём выборки n ; в столбце SS

приведены суммы квадратов (объясняемая Sr2 , остаточная Se2 , полная S 2 ); F – значение F -статистики; Y -пересечение – оценка b* ; Переменная X1 и Пере-

23

менная X 2 – оценки a1* и a2* ; в следующих двух столбцах приведены стандартные отклонения коэффициентов и их t-статистики.

Дополнительное задание

Задание 5.2. В таблице показаны объёмы продаж продукции городского хладокомбината (мороженого) за отдельные временные отрезки летнего сезона. Требуется построить линейную модель множественной регрессии для объёма реализации с двумя объясняющими переменными, применив 2 способа: функцию ЛИНЕЙН и надстройку «Анализ данных».

Номер

Средняя

Прирост

Объём розничной

недели

температура воздуха

средней цены

реализации (тонн)

 

оС)

(в %)

 

1

22

0,1

39

 

 

 

 

2

26

2,7

40

 

 

 

 

3

28

2,0

47

 

 

 

 

4

20

-1,6

39

 

 

 

 

5

25

0,5

45

 

 

 

 

6

18

-1,5

36

 

 

 

 

7

22

-2,4

46

 

 

 

 

8

17

0,0

33

 

 

 

 

Контрольные вопросы

1. Являются ли коэффициенты регрессии при обеих объясняющих переменных ( a1* и a2* ) в задании 5.1 значимыми? Как в этом случае интерпретировать результаты? Что делать дальше для получения надёжного прогноза?

2.Каковы результаты применения t-теста и F-теста к заданию 5.2?

3.Дайте интерпретацию коэффициентов регрессии в задании 5.2.

4.Введите в некоторую ячейку формулу, которая будет давать прогноз реализации мороженого на ближайшую неделю (задание 5.2) по значениям объясняющих переменных (эти значения вводятся в соседние ячейки).

5.Пусть известно, что синоптики прогнозируют на ближайшую неделю жару в 30-34 градуса (в качестве среднего значения берём 32). Убедитесь, что прогноз недельной реализации составляет 57.4 тонны. Допустим, что производственные мощности позволяют выпустить лишь 50 тонн. Опытным путём подберите такое увеличение цены (в процентах), чтобы выйти на уровень реализации приблизительно 50 тонн.

24

Работа 6

Регрессионный анализ нелинейных зависимостей

Время на выполнение и защиту 2 часа

Цель работы:

изучить способы проведения регрессионного анализа нелинейных зависимостей: линеаризация с помощью введения новых переменных в случае, когда имеет место линейность по параметрам; линеаризация степенной модели с помощью логарифмирования.

Линейность по переменным и линейность по параметрам

Линейный регрессионный анализ строится на предположении, что исследуемая зависимость имеет вид, близкий к функции

Y = a1 X1 + a2 X 2 +... + ak X k +b .

Величины Y , X1 , X 2 ,..., X k являются переменными; их выборочные значения известны. Величины a1 , a2 , ..., ak , b являются параметрами, истинные значе-

ния которых неизвестны и должны быть оценены. Записанная функция линейна как по переменным, так и по параметрам.

Нелинейность по переменным не является препятствием для применения линейного регрессионного анализа, поскольку легко устраняется переходом к новым переменным. Нелинейность по параметрам более сложная проблема.

Рассмотрим, например, степенную модель регрессии, в которой случайный член присутствует не как слагаемое, а как множитель:

yi = bxiaεi .

Прологарифмируем модель по основанию e :

ln yi = ln(bxiaεi ) = ln b + a ln xia + ln εi .

Если ввести обозначения vi = ln yi , c = ln b, ui = ln xi , ηi = ln εi , то модель становится линейной как по новой переменной, так и по новым параметрам:

vi = aui + c +ηi .

Теперь можно найти оценки a* , c* и затем от уравнения

ln y x = a* ln x + c*

придти к уравнению y x = ec* xa* .

25

Задание для лабораторной работы

В данной работе должны быть выполнены две задачи, рассмотренные в пособии [14] в качестве примеров 20 и 21.

Задание 6.1. В течение 10 сезонов регистрировались данные о количестве отдыхавших в санатории (X, человеко-дни) и среднедневном уровне затрат в расчёте на одного отдыхающего (Y, долла- ры/человеко-дни). Требуется оценить регрессию Y по X двумя способами:

1)построив уравнение линейной регрессии Y по X;

2)считая, что истинная зависимость близка к формуле

Y = IX0 + k ,

ввести новую переменную Z =1 X и построить уравнение линейной регрессии Y по Z , т.е. оценить I 0 и k .

Для обеих моделей вывести на диаграмме коэффициент детерминации.

X

650

550

480

580

690

870

840

750

920

1050

Y

12.6

13.5

14.3

13.2

12.3

11.5

11.6

12.0

11.3

11.0

Задание 6.2. В таблице для выборки из 10 семей приведены данные о среднедушевых годовых доходах X и потребительских расходах на питание Y (тыс. руб.). Требуется:

1) оценить линейную регрессию Y по X уравнением y x = a* x + b* ;

2)оценить параметры степенной модели Y = bX a , линеаризовав её с помощью логарифмирования;

3)получить на диаграмме линейный и степенной тренды, вывести коэффициенты детерминации и сделать вывод о том, какая из двух регрессий (линейная или степенная) имеет более высокое качество.

xi

22

33

27

17

15

35

24

27

40

33

yi

15

22

18

12

11

18

14

19

20

18

Смысл настоящей лабораторной работы состоит в том, чтобы разобраться в методах линеаризации моделей в зависимости от того, является ли модель нелинейной по переменным или нелинейной по параметрам.

Инструкция по выполнению задания

1. Построение линейной регрессии в задании 6.1 не представляет собой для вас ничего нового. Вы можете решить эту задачу разными способами, изученными в работах 3-5: вычислить коэффициенты регрессии по известным формулам; вывести на диаграмме линию тренда и её уравнение; воспользовать-

26

ся функцией ЛИНЕЙН или надстройкой Анализ данных. В любом случае будет получено уравнение регрессии

yx = −0.0057x +16.52 .

Однако вид диаграммы говорит о том, что, скорее всего, функциональная (линейная) зависимость для уравнения регрессии подобрана неверно.

15

Y

 

 

 

14

 

 

 

 

13

 

 

 

 

12

 

 

 

 

11

 

 

 

 

10

 

 

 

X

400

600

800

1000

2. Экономический анализ [14] показывает, что затраты в расчёте на один человеко-день равны

Y = IX0 + k ,

т.е. истинное соотношение между Y и X не линейно и характеризуется гиперболической зависимостью. (Конечно, речь идёт не о строгой функциональной зависимости, а о корреляции.) Вводя новую переменную Z = 1 / X, получаем линейную функцию

Y = I 0 Z + k .

Поскольку выборочные значения Z легко получаются пересчётом значений X, можно оценить линейную регрессию Y на Z, после чего снова вернуться к переменной X. В результате этих операций можно получить уравнение

 

x =

2958.9

+8.09

(*)

y

x

 

 

 

 

при очень высоком качестве регрессии (r2 = 0.998).

3. Необходимо вывести обе линии регрессии на одной диаграмме. Для этого можно ввести в таблицу дополнительный столбец, в котором будут рас-

считаны значения y x по формуле (*), а затем добавить данные на диаграмму.

Вы увидите, что новые регрессионные значения практически совпадут с данными наблюдений, что свидетельствует о высоком качестве регрессии.

27

4. Переходим к выполнению задания 6.2. Выполнение 1-го пункта задания (оценка линейной регрессии) приводит к результату y x = 0.386x + 6.152 ;

r 2 = 0.762. Для выполнения следующего пункта требуется перейти к логарифмам величин. Составьте следующую таблицу:

 

 

 

A

 

B

C

D

E

F

G

H

 

I

 

 

 

J

 

1

 

i

 

xi yi ui vi ui2 ui vi

 

u (vi

 

)2 (

 

u

 

)2

 

 

 

v

v

v

v

 

 

 

2

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1110

12суммы

13средние

Значения ui = ln x, vi = ln yi , вычисляются с помощью функции LN (из списка

математических функций); значения vu рассчитываются через полученные оценки коэффициентов линейной регрессии; в последних двух столбцах вычисляются слагаемые полной суммы квадратов и объясняемой суммы квадратов (это мы делали ранее в работе 4). Уравнение линейной регрессии для логарифмов от исходных данных должно принять вид vu = 0.6553u + 0.654 .

К тому же результату можно придти и другими известными нам способа-

24

Y

Линейный (Ряд1)

 

 

 

 

y = 0,3864x + 6,1524

 

 

 

Степенной

 

22

 

R2 = 0,7615

 

 

 

(Ряд1)

 

 

20

 

 

 

 

18

 

 

 

 

16

 

 

 

 

14

 

 

y = 1,9241x0,6553

12

 

 

R2 = 0,8412

 

 

 

 

X

 

 

 

 

10

 

 

 

 

 

10

20

30

40

ми с помощью функции ЛИНЕЙН или Анализа данных. Далее находим c* = ln b* и получаем оценку степенной модели регрессии

y x =1.924x0.6553 ; r 2 = 0.841.

Сравнение коэффициентов детерминации степенной и линейной модели показывает, что более высокое качество регрессии обеспечивает степенная модель.

28

5. Тот же результат может быть получен непосредственно на диаграмме (без вычислений). Для этого выведите на диаграмме две линии тренда (Линейная и Степенная) их уравнения и коэффициенты детерминации (Достовер-

ность аппроксимации). (См. рисунок).

Контрольные вопросы

1.Предскажите величину среднедневного уровня затрат в расчёте на одного отдыхающего (задание 6.1) при числе отдыхающих X = 2000 , пользуясь сначала линейной, а затем гиперболической моделью. Почему результаты столь сильно различаются? Какой из прогнозов вызывает большее доверие?

2.Покажите, что линеаризация степенной модели с помощью логарифмирования окажется невозможной, если случайный член будет присутствовать в модели не как множитель,

акак слагаемое.

3.Каков экономический смысл коэффициента регрессии линейной модели в задании 6.2? Почему предположение, что рост дохода приводит к линейному росту расходов на питание, является нереалистичным?

4.Для степенной модели получена оценка параметра a* = 0.6553. Дайте экономическую интерпретацию этой оценки, связав её с эластичностью расходов на питание по доходу. Для каких расходов (не на питание!) данная оценка может быть больше единицы?

Работа 7

Гетероскедастичность. Обобщённый метод наименьших квадратов

Время на выполнение и защиту 2 часа

Цель работы:

составить представление о проявлении гетероскедастичности на диаграммах рассеивания и научиться устранять её с помощью обобщённого метода наименьших квадратов.

Проблема гетероскедастичности

Одним из условий применимости обычного метода наименьших квадратов (см. пункт 4.1 [14]) является постоянство дисперсии случайного члена

D(εi ) = const, i =1, n ,

называемое гомоскедастичностью. Если это свойство не выполняется, то оценки по МНК будут неэффективными. Предположим, что в линейной модели регрессии дисперсия случайного члена прямо пропорциональна квадрату объясняющей переменной, т.е.

yi = axi + b + xi εi , D(εi ) = const, i =1, n .

29

Поделив каждое уравнение на xi и введя обозначения ui =1 xi , vi = yi xi , получим новую модель

vi =bui + a +εi ,

в которой случайный член гомоскедастичен, а коэффициенты a и b как бы поменялись ролями. Применяя к этой модели обычный МНК, находим оценки a* ,

b* , которые одновременно являются эффективными оценками коэффициентов исходной модели, полученными обобщённым МНК.

Таким образом, обобщённый МНК отличается от обычного МНК подготовительной операцией, имеющей целью ликвидировать гетероскедастичность случайного члена.

Задание для лабораторной работы

В данной работе должна быть выполнено задание, рассмотренное в качестве примера 24 (продолжение примера 21) [14]. Данное задание является продолжением задания 6.2.

Задание 7. Используя данные задания 6.2, требуется:

1)визуально убедиться в наличии гетероскедастичности остатков;

2)перейти к обобщённому МНК и оценить коэффициенты регрессии;

3)на одном графике показать исходные данные и две линии регрессии, полученные обычным МНК (в работе 6) и обобщённым МНК.

Смысл настоящей работы состоит в том, чтобы применить обобщённый метод наименьших квадратов как альтернативный метод борьбы с гетероскедастичностью ( другим методом является переход от линейной к степенной модели, рассмотренный в работе 6).

Инструкция по выполнению задания

1. Вид диаграммы рассеивания (она приведена в работе 6) указывает на наличие гетероскедастичности (разброс значений Y увеличивается с ростом X ). Более точный, количественный подход тест Голдфелда-Квандта [14] при малом количестве наблюдений использовать трудно. В задании 6.2 для этих же исходных данных мы перешли к степенной модели и добились роста коэффициента детерминации. Здесь мы опробуем обобщённый МНК.

2. Создадим следующую таблицу:

30