Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Чебоксарский кооперативный институт (филиал РУК)

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Эконометрика (лабораторные)

.pdf

Скачиваний:

177

Добавлен:

01.03.2016

Размер:

1.96 Mб

Скачать

☆

<<< < Предыдущая 1 23 / 163 4 5 6 7 8 9 10 11 12 13 14 15 16 > Следующая >>>

называются регрессионными остатками (или просто

Величины 0 и 1 называются теоретическими параметрами

(коэффициентами) регрессии. Они неизвестны и поиск их оптимальных числовых оценок составляет одну из задач регрессионного анализа.

Параметр 1 показывает, на сколько единиц в среднем изменится

зависимая переменная Y, если независимая переменная X увеличится на одну единицу.

Величины i

остатками), возмущениями, ошибками измерений и являются случайными величинами. При доказательстве основных теоретических положений предполагается, что распределение остатка подчинено нормальному закону распределения.


Наша задача состоит в том, чтобы по наблюдениям			(xi , yi ), i 1, n
~		~
найти оценки b0 0	, b1	1 эмпирического уравнения регрессии
		yˆ b0 b1 x .	(2.1)

Эмпирическая линия регрессии отражает основную тенденцию корреляционной связи.

Перечислим все явные и неявные предположения, принимаемые в рамках модели наблюдений, от выполнения которых зависит качество получаемых оценок и возможность применения к ним процедур регрессионного анализа.

1.Значения X задаются или измеряются без ошибок.

2.Регрессия Y по (на) X линейна, т.е. M x (Y) 0 1 x .

3.Отклонения yi M (Y xi ) взаимно независимы.

4.Эти отклонения имеют одну и ту же дисперсию 2 , точное

значение которой неизвестно при всех X . Это свойство называется гомоскедастичностью, а сами дисперсии – гомоскедастичными.

5.Данные действительно были взяты из совокупности, относительно которой должны быть сделаны определенные выводы.

6.Не было посторонних переменных, существенно уменьшающих

значения связи между величинами X	и Y .
7. Отклонения распределены по нормальному закону.
Оценки параметров линейной регрессии b0	и b1 могут быть найдены

разными методами. Наиболее распространенным является метод наименьших квадратов (МНК), разработанный А. Лежандром (1806) и К. Гауссом (1821).

Если вместо		X	в эмпирическое уравнение регрессии поставить
значения	x1 , x2 , , xn , то будут получены значения			yˆ1 , yˆ2 , , yˆn , которые,
вообще	говоря,	будут	отличаться от опытных	значений y1 , y2 , , yn .

Разница yi yˆi ei называется ошибкой (остатком, отклонением).

Суть метода наименьших квадратов заключается в минимизации суммы квадратов остатков (суммы квадратов отклонений фактических ординат точек корреляционного поля от ординат, вычисленных по уравнению (2.1)):

Q(b0 ,b1 ) ei2 (yi yˆi )2 (yi b0 b1 xi )2 min .

С геометрической точки зрения минимизация суммы квадратов отклонений означает выбор одной прямой с параметрами 0 и 1 из всех

прямых, которая ближе всего «прилегает» по ординатам к системе выборочных точек (xi , yi ), i 1,n .

Решение задачи минимизации функционала Q Q(b0 , b1 ) сводится к вычислению частных производных Q по b0 и b1 с последующим решением системы уравнений:

Q 0,i 0,1.

Решая ее, найдем искомые МНК–оценки параметров регрессии:

cov( x, y)

xy x y

var( y)

var( x)

x2 (x)2

var( x)

y b1 x.

Знак коэффициента регрессии b1

указывает направление связи (если

b1 >0, то связь прямая; если b1 <0, то связь обратная). Тогда уравнение линия регрессии имеет вид:


yˆ y b1	(x x) .	(2.2)
Для того чтобы МНК–оценки	b0 и	b1 обладали желательными

свойствами, отклонения i должны удовлетворять определенным предпосылкам (условиям) Гаусса–Маркова:

 иметь нулевые математические ожидания: M ( i ) 0 i 1,n ;

	иметь постоянную дисперсию:	var(	) var(	j	) 2	i, j 1, n ;
		i		j

 быть некоррелированными (независимыми) между собой: cov( i , j ) 0 i j ;

 быть некоррелированными с объясняющей переменной:

cov( i , xi ) 0 i, j 1,n .

Если данные условия выполняются, то МНК–оценки b0 и b1 являются

несмещенными ( M (b0 ) 0 ;	M (b1 ) 1 ),	состоятельными ( lim var(b0 ) 0	;
		n
lim var(b1 ) 0 ), эффективными (имеют		наименьшую дисперсию по
n

сравнению с любыми другими оценками параметров 0 , 1 ). Оценка

параметров регрессии является лишь отдельным этапом длительного и сложного процесса построения эконометрической модели. Далее идет проверка качества оцененной зависимости, состоящая из следующих этапов:

проверка статистической значимости каждого коэффициента уравнения регрессии;

проверка общего качества уравнения регрессии;

проверка предпосылок Гаусса–Маркова.

При проверке статистической значимости коэффициентов регрессии выдвигают нулевую и альтернативную гипотезы. В качестве основной

гипотезы

H 0 выдвигают гипотезу

незначимом

отличии

от

нуля

«истинного» параметра регрессии 1

(величина

не зависит от

X ).

Альтернативной гипотезой H1

при этом является гипотеза обратная, т.е. о

неравенстве нулю «истинного» параметра (значение

X влияет на вели–

чину Y ):

H0 : 1 0,

H1 : 1 0.

Для

проверки гипотезы

используется t–статистика,

имеющая

распределение Стьюдента:

S (b1 )

где S (b1 )

( yi yˆi )2

–

стандартная

ошибка

(n 2) (xi x)2

(xi

x)2

коэффициента регрессии b1 , зависящая от:

рассеяния остатков. Чем больше доля вариации значений переменной Y , необъясненной ее зависимостью от X , найденной

МНК, тем больше стандартная ошибка коэффициента регрессии и тем менее точной является оценка b1 параметра регрессии 1 ;

рассеяния значений объясняющей переменной X . Чем сильнее это рассеяние, тем меньше стандартная ошибка коэффициента регрессии. Отсюда следует, что при вытянутом облаке точек в корреляционном поле получаем более надежную оценку функции регрессии, чем при небольшом скоплении точек, близко расположенных друг к другу;

объема выборки. Чем больше объем выборки n, тем меньше

стандартная ошибка коэффициента регрессии.

Гипотеза в такой постановке обычно называется гипотезой о статистической значимости коэффициента регрессии.

Найденное по данным наблюдениям значение t–статистики (его еще называют наблюдаемым или фактическим) сравнивается с критическим значением t –статистики, определяемым по таблицам распределения Стьюдента. Критическое значение находится в зависимости от уровня

значимости				и числа	степеней свободы , которое равно n–2. Если
	tíàáë	> têð , то гипотезу H 0			отвергают; если же	tíàáë	<têð , то ее принимают.

		Если H 0	принимается, то есть основание считать, что величина					Y
не		зависит	от	X . В	этом случае говорят, что коэффициент			1
статистически незначим (он слишком близок к нулю). При отклонении								H 0
в пользу H1			коэффициент 1 считается статистически значимым, что
указывает на наличие определенной зависимости между переменными								Y

и X . В данном случае рассматривается двусторонняя критическая область, так как важным является именно отличие от нуля коэффициента регрессии, и он может быть как положительным, так и отрицательным.

По аналогичной схеме на основе t –статистики проверяется гипотеза о статистической значимости коэффициента регрессии 0 .

При оценке значимости коэффициента линейной регрессии 1 на

начальном этапе можно использовать следующее «грубое» правило, позволяющее не прибегать к таблицам:

если стандартная ошибка S(b1 ) коэффициента b1 больше его модуля ( t 1), то коэффициент 1 не может быть признан значимым, так как

доверительная вероятность при двусторонней альтернативной гипотезе составит менее, чем 0,7;

если 1 t 2 , то 1 может рассматриваться как относительно (слабо)

значимая. Доверительная вероятность в этом случае лежит между 0,7 и

0,95;

если 2	t	3, то это свидетельствует о значимой линейной связи
если 2	t	3, то это свидетельствует о значимой линейной связи

между X

и Y . В этом случае доверительная вероятность колеблется от

0,95 до 0,99;

если

3, то это почти гарантия наличия линейной связи.

При

n 10 предложенное «грубое»

правило практически всегда

работает.

Любое значение 1, совместимое с оценкой b1, удовлетворяет условию

b1 1

или t

кр

S(b1)

S (b1)

Разрешив это неравенство относительно 1, получим для него

доверительный интервал:

b1 – tкр

S(b1) < 1 b1 + tкр S(b1),

покрывающий его с заданной вероятностью (1– ). Серединой интервала является величина b1. Границы интервала одинаково отстоят от b1, зависят от выбора уровня значимости и являются случайными числами.

В эконометрике проверку гипотез осуществляют при 5%-м, реже на 10%-м уровне значимости . В первом случае стандартная ошибка коэффициента регрессии составляет примерно до половины величины коэффициента по модулю.

Чем ниже критическая вероятность, тем меньше риск получения ошибок 1-го рода. В то же время, если нулевая гипотеза ложна, то чем выше уровень значимости , тем шире область принятия гипотезы и тем выше вероятность того, что гипотеза не отвергается, и тем выше риск допущения ошибки 2-го рода.

Под качеством уравнения регрессии понимается степень близости (соответствия) рассчитанных по данному уравнению (2.2) значений

признака-результата	ˆ	к фактическим (наблюдаемым) значениям Y . При
	Y

этом качество модели регрессии связывают с адекватностью модели наблюдаемым эмпирическим данным. Проверка адекватности (соответствия) модели регрессии наблюдаемым данным проводится на основе остатков ei : ei yi yˆi . Остатки ei , как и ошибки i , являются

случайными величинами, однако они, в отличие от i , наблюдаемы. Если ei 0 (i 1, n) , то для всех наблюдений yi yˆi . Графически это означает,

что теоретическая линия регрессии проходит через все точки корреляционного поля, что возможно только при строго функциональной связи. Следовательно, результативный признак Y полностью обусловлен

влиянием фактора X . Если ei 0 (i 1, n) , то величина этих отклонений

лежит в основе расчета показателей качества (адекватности) уравнения. Для этого используют теорему о разложении дисперсии, согласно которой общая дисперсия результативного признака Y может быть разложена на две составляющие – объясненную и необъясненную уравнением регрессии дисперсии:

var(y) var(yˆ) var(e) ,

где


	var( y)		( yi y)2	,
	var( y)		n	,
			n

	var( y)		( yi y)2	,
	var( y)		n	,
			n
	var(e)		( yi yˆi )	2	ei2
					.
					.
			n		n
На	основе теоремы	о разложении			дисперсии рассчитываются
показатели качества модели регрессии:
1.	Коэффициент корреляции rxy . Чем ближе rxy к единице, тем ближе

все точки к прямой регрессии.

2. Средняя квадратическая ошибка уравнения регрессии Se ,

являющаяся несмещенной оценкой остаточного среднего квадратического отклонения = :

( yi yˆi )2

Если S 2 var(y) , то использование модели регрессии является целе–

сообразным.

Коэффициент детерминации R2 :

R 2

var( yˆ)

var(e)

, причем 0 R2

var( y)

Коэффициент

детерминации

характеризует

долю вариации

(дисперсии) результативного признака, объясняемую

регрессией

общей

вариации

(дисперсии) Y .

Соответственно

величина

1– R 2

характеризует долю вариации (дисперсии) Y , необъясненную уравнением регрессии, а значит, вызванную влиянием прочих неучтенных в модели факторов.

В качестве нулевой гипотезы H0 : R2 0 выдвигается предположение о статистической незначимости уравнения регрессии при конкурирую-

щей гипотезе H	1	: R2	0 .
	1
Осуществляется сравнение фактического (наблюдаемого) Fнабл :
			Fнабл		R2	(n 2)
			Fнабл		R2	(n 2)
				1	R2

и критического (табличного) Fкр значения F–критерия Фишера.

Вслучае справедливости гипотезы H 0 статистика F имеет

распределение Фишера с числами степеней свободы числителя и знаменателя, соответственно равными 1 =1 и 2 =n–2.

Если F		< F		, то H		принимается, т.е. R 2	статистически незначим;
	набл		кр		0
если же	F		> F , то			R2 статистически значим, т.е. между X и Y
	набл			кр

существует линейная связь (с вероятностью ошибиться, равной ). Замечание. При парной линейной регрессии коэффициент

детерминации равен квадрату парного линейного коэффициента

корреляции: R 2 r

2 .

Замечание. В парном регрессионном анализе эквивалентны t–

критерий для H0: 1

t–критерий для H0: = 0 и F–критерий для R2:

n 2

S (b )

1 r 2

1 R2

Связь между критериями выражается равенством

F ,

причем для критических значений критериев при любом уровне

значимости

tb1 кр tr кр

Fкр

и эти критерии дают один и тот же результат.

Замечание. Вычисление R 2

корректно, если константа b

включена в

уравнение регрессии.

4. Средняя ошибка аппроксимации A :

yˆ

Чем меньше рассеяние эмпирических точек вокруг теоретической линии регрессии, тем меньше средняя ошибка аппроксимации. Ошибка аппроксимации меньше 7% свидетельствует о хорошем качестве модели.

Под прогнозированием в эконометрике понимается построение оценки зависимой переменной для некоторого набора независимых переменных, которых нет в исходных наблюдениях.

Различают точечное и интервальное прогнозирование. В первом случае оценка – некоторое число, во втором – интервал, в котором находится истинное значение зависимой переменной с заданным уровнем значимости .

Выделяют также безусловное и условное прогнозирование в зависимости от того, известны ли объясняющие переменные точно или приближенно. Кроме того, для временных рядов при нахождении прогноза существенно наличие или отсутствие корреляции во времени между ошибками.

Для регрессионной модели y 0 1 x действительное значение

зависимой переменной при х = хр имеет вид: yp 0 1 xp p ,

где М( p) = 0, D( p) = 2; значения 0 , 1 , p неизвестны. Предсказанным значением (безусловным прогнозированием) является

оценка yˆ p (точечный прогноз), равный yˆ p a bxp .

Тогда доверительный интервал для действительного значения ур определяется выражением

yˆ p tкр S p yp yˆ p tкр S p ,
где tкр– критическое значение	t–статистики	при		заданном			уровне

значимости и числе степеней	свободы , S	S		1	1	xp	x 2	–
значимости и числе степеней	свободы , S	S		1		n var x		–
		p	e		n
					n

стандартная ошибка предсказания (среднеквадратическая оценка прогноза).

На рисунке в общем виде показано соотношение между доверительным интервалом предсказания и значением объясняющей переменной. Отрезок, отмеченный на рисунке стрелками, определяет

доверительный интервал предсказания в точке хр.

Задача 2.1. Имеются данные о среднедушевых расходах на питание

	Y (усл. ед.) и личном доходе					X (усл. ед.) граждан некоторой страны за 8
лет:
	Год	1998	1999	2000			2001	2002	2003	2004	2005
	X	2	5		8		11	14	17	20	23
	Y	8	9		11		18	20	23	25	30
	Построить регрессионные зависимости:
	а) расходов на питание				Y	и личного дохода			X ;
	б) расходов на питание				Y и времени			t ;

в) оценить качество построенной модели.

Решение.

1.Модель парной линейной регрессии. Метод наименьших квадратов. Анализ вариации зависимой переменной.

а) Пусть истинная модель описывается уравнением Y 0 1 X .

По имеющимся выборочным наблюдениям можно получить уравнение yˆ b0 b1 x , где b0 , b1 – оценки неизвестных параметров 0 , 1 . Поскольку

таблица похожа на таблицу из примера 1.1 лабораторной работы №1, можно проделать следующее: загрузить Excel, открыть файл с именем лаб1.xls, выполнить команду меню Файл Сохранить как, в поле Имя файла ввести лаб2, нажать Сохранить. Теперь мы имеем файл, который можем изменять соответственно новым данным и не набирать многие формулы заново.

Итак, у нас имеется готовый шаблон. Для начала выделим ячейки А3:А5,далее выполним команды меню: Главная Удалить Удалить строки с листа ОК. Получили для работы таблицу нужного размера, причем столбец «Год» заполнен правильно.

Изменим данные во втором и третьем столбцах. Для этого выделим диапазон ячеек B3:C10 и нажмем на клавиатуре кнопку Delete. Ячейки стали пустыми, и мы видим, что все другие вычисленные значения обнулились. Это связано с тем, что Excel автоматически пересчитывает значения в клетках с формулами, если исходные данные изменяются.

Введем данные рассматриваемой задачи в ячейки B3:C13. Все значения автоматически изменились в соответствии с новыми данными.

Однако следует обратить внимание на то, что теперь формула в ячейках B12:F12 является неверной, поскольку в ней сумма значений по столбцу делится на 11, в то время как в текущей задаче количество лет и соответственно объем выборки равны 8. Поэтому желательно не использовать в данных ячейках константу «число лет», так как при удалении или добавлении числа строк можно забыть изменить формулу. Вместо этого щелкните по ячейке B12, очистите ее, затем воспользуйтесь


Мастером	функций:	ФОРМУЛЫ fx		Вставить
функцию Статистические СРЗНАЧ			ОК.	В появившемся

диалоговом окне в поле «Число1» уже имеется некоторый интервал, для которого предлагается найти среднее значение. Однако поскольку он нам не подходит, мы левой клавишей мыши выделяем диапазон B3:B10 и нажимаем ОК. Теперь можно не беспокоиться при удалении или добавлении строк – среднее значение будет пересчитываться автоматически. Пользуясь автозаполнением, размножьте формулу из ячейки В12 на диапазон ячеек B12:F12.

Можно оставить формулы для вычисления вариации X , вариации Y и ковариации X и Y .

Выделите диапазон ячеек A25:F47 и очистите их (нажмите Delete).

Выделите щелчком	мыши все формулы в данном диапазоне и удалите их.
В ячейках В25	и В29 введите формулы-комментарии для вычисления
		cov(x, y)
параметров уравнения регрессии: b		cov(x, y)	и b	y b x
параметров уравнения регрессии: b			и b	y b x
	1	var(x)	0	1
		var(x)

соответственно. Выполните действия для расчета согласно таблице:

	Ячейка		Формула
	D25		=D22/D17
	D29		=C12-D25*B12
В ячейке Е26 введите комментарий «Линейное уравнение регрессии», в
ячейке E27 –	y , в ячейке F27 –	«=D29», в ячейке G27 – , в ячейке H27
– «=D25», в ячейке I27 – x .
Получим	линейное уравнение		регрессии yˆ 4,507937 1,079365x.

Коэффициент b1 1,079365 показывает, что с увеличением личного дохода

на 1 усл. ед. расходы на питание в среднем возрастают на 1,08 усл. ед. Замечание. Параметры линейной парной регрессии можно рассчитать

по отдельности. Для этого в Excel существуют функции НАКЛОН и

<<< < Предыдущая 1 23 / 163 4 5 6 7 8 9 10 11 12 13 14 15 16 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.03.2016314.62 Кб54эк теория.docx
#
01.03.20161.1 Mб42ЭКЗАМ.doc
#
01.03.2016133.99 Кб5Экзамен макро.docx
#
01.03.201664.54 Кб15экзамен МЭ.docx
#
01.03.2016253.81 Кб334Экзаменационные ответы по менеджменту.docx
#
01.03.20161.96 Mб177Эконометрика (лабораторные).pdf
#
01.03.2016109.94 Кб10Экономика билеты изм.docx
#
01.03.2016103.04 Кб6Экономика билеты.docx
#
01.03.201693.91 Кб90экономика лк.docx
#
01.03.2016119.46 Кб14экономика строительства курсовая.docx
#
01.03.2016230.41 Кб61экономика2.docx