Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЭКОНОМЕТРИКА и математическая экономика / Бородич С.А. Вводный курс эконометрики (БГУ).pdf
Скачиваний:
1024
Добавлен:
20.04.2015
Размер:
10.32 Mб
Скачать

4.ПАРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ

4.1.Взаимосвязи экономических переменных

Стех пор, как экономика стала серьезной самостоятельной наукой, исследователи пытаются дать свое представление о возможных путях экономического развития, спрогнозировать ту или иную ситуацию, предвидеть будущие значения экономических показателей, указать инструменты изменения ситуации в желательном направлении. С другой стороны, во многих случаях различные экономисты предлагают разные, а зачастую противоположные методы решения той или иной задачи. Политики либо управляющие производством, выбирая одну из возможных стратегий решения, получают определенный результат. Плох он или хорош, и можно ли было получить лучший результат, проверить весьма затруднительно. Экономическая ситуация практически никогда не повторяется в точности, а следовательно, не позволяет применить две стратегии при одних и тех же условиях с целью сравнения конечного результата. Поэтому одной из центральных задач экономического анализа является предсказание либо прогнозирование развития некоторого экономического объекта при создании тех или иных условий. Поняв глубинные движущие силы исследуемого процесса, можно научиться рационально управлять его развитием. Поведение и значение любого экономического показателя зависят практически от бесконечного количества факторов, и все их учесть нереально. Но в этом и нет необходимости. Обычно среди факторов, воздействующих на исследуемый экономический показатель, существует лишь ограниченное количество тех, влияние которых действительно существенно. Доля оставшихся факторов столь незначительна, что их игнорирование не может привести к существенным отклонениям в поведении исследуемого объекта. Выделение и учет в модели лишь ограниченного числа реально доминирующих факторов и является серьезной предпосылкой для качественного анализа, прогнозирования и управления ситуацией. Экономическая теория выявила и исследовала значительное число устоявшихся и стабильных связей между различными показателями. Например, хорошо изученными являются зависимости спроса или потребления от уровня дохода и цен на товары; зависимость между уровнями безработицы и инфляции; зависимость объема производства от целого ряда факторов (размера основных фондов, их возраста, качества персонала и т. д.); зависимость

91

между производительностью труда и уровнем механизации, а также многие другие зависимости.

Любая экономическая политика заключается в регулировании экономических переменных, и она должна базироваться на знании того, как эти переменные связаны с другими переменными, ключевыми для принимающего решения политика или предпринимателя. Так, в рыночной экономике нельзя непосредственно регулировать темп инфляции, но на него можно воздействовать средствами фискальной (бюджетно-налоговой) и монетарной (кредитно-денежной) политики. Поэтому, в частности, должна быть изучена зависимость между предложением денег и уровнем цен.

Однако в реальных ситуациях даже устоявшиеся зависимости могут проявляться по-разному. Еще более сложной является задача анализа малоизученных и нестабильных зависимостей, построение моделей которых является краеугольным камнем эконометрики. Здесь следует отметить, что такие экономические модели невозможно строить, проверять и совершенствовать без статистического анализа входящих в них переменных с использованием реальных статистических данных. Инструментарием такого анализа являются методы статистики и эконометрики, в частности регрессионного и корреляционного анализа. Следует сказать, что статистический анализ зависимостей сам по себе не вскрывает существо причинных связей между явлениями, т. е. он не решает вопрос, в силу каких причин одна переменная влияет на другую. Решение такой задачи лежит в иной плоскости и является результатом качественного (содержательного) изучения связей, которое обязательно должно либо предшествовать статистическому анализу, либо сопровождать его.

В естественных науках большей частью имеют дело со строгими (функциональными) зависимостями, при которых каждому значению одной переменной соответствует единственное значение другой.

Однако в подавляющем большинстве случаев между экономическими переменными таких зависимостей нет. Например, нет строгой зависимости между доходом и потреблением, ценой и спросом, производительностью труда и стажем работы и т. д. Это связано с целым рядом причин и, в частности, с тем, что, во-первых, при анализе влияния одной переменной на другую не учитывается целый ряд других факторов, влияющих на нее; во-вторых, это влияние может быть не прямым, а проявляться через цепочку других факторов; в-третьих, многие такие воздействия носят случайный характер и т. д. Поэтому в

92

экономике говорят не о функциональных, а о корреляционных, либо статистических зависимостях. Нахождение, оценка и анализ таких зависимостей, построение формул зависимостей и оценка их параметров являются одним из важнейших разделов эконометрики.

Статистической называют зависимость, при которой изменение одной из величин влечет изменение распределения другой. В частности, статистическая зависимость проявляется в том, что при изменении одной из величин изменяется среднее значение другой. Такую статистическую зависимость называют корреляционной.

4.2. Суть регрессионного анализа

Можно указать два варианта рассмотрения взаимосвязей между двумя переменными X и Y. В первом случае обе переменные считаются равноценными в том смысле, что они не подразделяются на первичную и вторичную (независимую и зависимую) переменные. Основным в этом случае является вопрос о наличии и силе взаимосвязи между этими переменными. Например, между ценой товара и объемом спроса на него, между урожаем картофеля и урожаем зерна, между интенсивностью движения и числом аварий. При исследовании силы линейной зависимости между такими переменными мы попадаем в область корреляционного анализа, основной мерой которого является коэффициент корреляции. Вполне вероятно, что связь в этом случае вообще не носит направленного характера. Например, урожайность картофеля и зерновых обычно изменяется в одном и том же направлении, однако очевидно, что ни одна из этих переменных не является определяющей.

Другой вариант рассмотрения взаимосвязей выделяет одну из ве-

личин как независимую (объясняющую), а другую как зависимую

(объясняемую). В этом случае изменение первой из них может служить причиной для изменения другой. Например, рост дохода ведет к увеличению потребления. Рост цены к снижению спроса. Снижение процентной ставки увеличивает инвестиции. Увеличение обменного курса валюты сокращает объем чистого экспорта и т. д. Однако такая зависимость не является однозначной в том смысле, что каждому конкретному значению объясняющей переменной (набору объясняющих переменных) может соответствовать не одно, а множество значений из некоторой области. Другими словами, каждому конкретному значению объясняющей переменной (набору объясняющих переменных) соответствует некоторое вероятностное распределение зависимой пе-

93

ременной (рассматриваемой как СВ). Поэтому анализируют, как объясняющая(ие) переменная(ые) влияет(ют) на зависимую переменную “в среднем”. Зависимость такого типа, выражаемая соотношением

M(Y x) = f(x),

(4.1)

называется функцией регрессии Y на X. При этом X называется незави-

симой (объясняющей) переменной (регрессором), Y зависимой (объ-

ясняемой) переменной. При рассмотрении зависимости двух СВ говорят о парной регрессии. Зависимость нескольких переменных, выражаемая функцией

М(Y x1, x2, …, xm) = f(x1, x2, …, xm),

(4.2)

называют множественной регрессией.

Термин регрессия (движение назад, возвращение в прежнее состояние) был введен Фрэнсисом Галтоном в конце XIX века при анализе зависимости между ростом родителей и ростом детей. Галтон заметил, что рост детей у очень высоких родителей в среднем меньше, чем средний рост родителей. У очень низких родителей, наоборот, средний рост детей выше. И в том и в другом случае средний рост детей стремится (возвращается) к среднему росту людей в данном регионе. Отсюда и выбор термина, отражающего такую зависимость.

В настоящее время под регрессией понимается функциональная зависимость между объясняющими переменными и условным математическим ожиданием (средним значением) зависимой переменной, которая строится с целью предсказания (прогнозирования) этого среднего значения при фиксированных значениях первых.

Для отражения того факта, что реальные значения зависимой переменной не всегда совпадают с ее условными математическими ожиданиями и могут быть различными при одном и том же значении объясняющей переменной (наборе объясняющих переменных), фактическая зависимость должна быть дополнена некоторым слагаемым ε, которое, по существу, является случайной величиной и указывает на стохастическую суть зависимости. Из этого следует, что связи между зависимой и объясняющей(ими) переменными выражаются соотношениями

Y = M(Y x) + ε,

(4.3)

Y = М(Y x1, x2, …, xm) + ε,

(4.4)

называемыми регрессионными моделями (уравнениями).

94

Обсуждение регрессионных моделей в следующих главах поможет углублению понимания данного понятия.

Возникает вопрос, в чем причина обязательного присутствия в регрессионных моделях случайного фактора (отклонения). Этому может быть достаточно много объяснений, среди которых выделим наиболее существенные.

1. Невключение в модель всех объясняющих переменных. Любая регрессионная (в частности, эконометрическая) модель является упрощением реальной ситуации. Реальная ситуация всегда представляет собой сложнейшее переплетение различных факторов, многие из которых в модели не учитываются, что порождает отклонение реальных значений зависимой переменной от ее модельных значений. Например, спрос (Q) на товар определяется его ценой (P), ценой (Ps) на това- ры-заменители, ценой (Pc) на дополняющие товары, доходом (I) потребителей, их количеством (N), вкусами (T), ожиданиями (W) и т. д. Безусловно, перечислить все объясняющие переменные здесь практически невозможно. Например, мы не учли такие факторы, как традиции, национальные или религиозные особенности, географическое положение региона, погода и многие другие, влияние которых приведет к некоторым отклонениям реальных наблюдений от модельных, которые выразим через случайный член ε: Q = f(P, Ps, Pc, I, N, T, W, ε). Проблема здесь еще в том, что никогда заранее неизвестно, какие факторы при создавшихся условиях действительно являются определяющими, а какими можно пренебречь. Здесь уместно отметить, что в ряде случаев учесть непосредственно какой-то фактор нельзя в силу невозможности получения по нему статистических данных. Например, величина сбережений домохозяйств может определяться не только доходами его членов, но и, например, их здоровьем, информация о котором в цивилизованных странах составляет врачебную тайну и не раскрывается. Кроме того, ряд факторов носит принципиально случайный характер (например, погода), что добавляет неоднозначности при рассмотрении некоторых моделей (например, модель, прогнозирующая объем урожая).

2. Неправильный выбор функциональной формы модели. Из-за слабой изученности исследуемого процесса, либо из-за его переменчивости может быть неверно подобрана функция, его моделирующая. Это, безусловно, скажется на отклонении модели от реальности, что отразится на величине случайного члена. Например, производственная функция (Y) одного фактора (X) может моделироваться функцией

95

Y = a + b X, хотя скорее должна была использоваться другая модель Y = a Xb (0 < b < 1), учитывающая закон убывающей эффективности. Кроме того, неверным может быть подбор объясняющих переменных.

3.Агрегирование переменных. Во многих моделях рассматриваются зависимости между факторами, которые сами представляют сложную комбинацию других, более простых переменных. Например, при рассмотрении в качестве зависимой переменной совокупного спроса проводится анализ зависимости, в которой объясняемая переменная является сложной композицией индивидуальных спросов, оказывающих на нее определенное влияние помимо факторов, учитываемых в модели. Это может оказаться причиной отклонения реальных значений от модельных.

4.Ошибки измерений. Какой бы качественной ни была модель, ошибки измерений переменных отразятся на несоответствии модельных значений эмпирическим данным, что также отразится на величине случайного члена.

5.Ограниченность статистических данных. Зачастую строятся модели, выражаемые непрерывными функциями. Но для этого используется набор данных, имеющих дискретную структуру. Это несоответствие находит также свое выражение в случайном отклонении.

6.Непредсказуемость человеческого фактора. Эта причина мо-

жет “испортить” самую качественную модель. Действительно, при правильном выборе формы модели, скрупулезном подборе объясняющих переменных все равно невозможно спрогнозировать поведение каждого индивидуума.

Таким образом, случайный член является отражением влияния всех описанных выше причин и не только их. Этот список может быть дополнен.

Задача построения качественного уравнения регрессии, соответствующего эмпирическим данным и целям исследования, является достаточно сложным и многоступенчатым процессом. Его можно разбить на три этапа:

1)выбор формулы уравнения регрессии;

2)определение параметров выбранного уравнения;

3)анализ качества уравнения и поверка адекватности уравнения эмпирическим данным, совершенствование уравнения.

Выбор формулы связи переменных называется спецификацией уравнения регрессии. В случае парной регрессии выбор формулы

96

обычно осуществляется по графическому изображению реальных статистических данных в виде точек в декартовой системе координат, ко-

торое называется корреляционным полем (диаграммой рассеивания)

(рис. 4.1).

Y

1

Y

 

• •

 

• •

••

••

 

 

Х

а

б

2

 

Y

1

1

2

Х

 

Х

 

 

в

Рис. 4.1

На рис 4.1 представлены три ситуации.

На графике 4.1, а взаимосвязь между X и Y близка к линейной, и прямая 1 достаточно хорошо соответствует эмпирическим точкам. Поэтому в данном случае в качестве зависимости между X и Y целесообразно выбрать линейную функцию Y = b0 + b1X .

На графике 4.1, б реальная взаимосвязь между X и Y, скорее все-

го, описывается квадратичной функцией Y = aX2 + bX + c (линия 2), и какую бы мы не провели прямую (например, линия 1), отклонения точек наблюдений от нее будут существенными и неслучайными.

На графике 4.1, в явная взаимосвязь между X и Y отсутствует. Какую бы мы не выбрали форму связи, результаты ее спецификации и параметризации (определение коэффициентов уравнения) будут неудачными. В частности, прямые 1 и 2, проведенные через центр “облака” наблюдений и имеющие противоположный наклон, одинаково плохи для того, чтобы делать выводы об ожидаемых значениях переменной Y по значениям переменной X.

В случае множественной регрессии определение подходящего вида зависимости является более сложной задачей, что будет обсуждено в дальнейшем.

Вопросы определения параметров уравнения (параметризации) и проверки качества (верификации) уравнения регрессии будут обсуждены ниже.

97

4.3.Парная линейная регрессия

Если функция регрессии линейна, то речь ведут о линейной регрессии. Модель линейной регрессии является наиболее распространенным (и простым) уравнением зависимости между экономическими переменными. Кроме того, построенное линейное уравнение может быть начальной точкой эконометрического анализа.

Например, Кейнсом была предложена формула такого типа для моделирования зависимости частного потребления С от располагаемого дохода I: C = Co +b I, где Co величина автономного потребления, b (0 < b 1) предельная склонность к потреблению. Однако при использовании данной модели при анализе конкретных данных мы практически всегда будем иметь определенную погрешность, т. к. строгой функциональной зависимости между этими показателями нет. Однако никто не будет отрицать, что люди (домохозяйства) с большим доходом имеют большее в среднем потребление. Данная ситуация наглядно представлена на рис. 4.2.

С

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

I1

I2

I3

I4

I5

I

 

 

 

Рис. 4.2

 

 

 

Из предыдущих рассуждений ясно, что линейная регрессия (тео-

ретическое линейное уравнение регрессии) представляет собой линей-

ную функцию между условным математическим ожиданием M(Y X = = xi) зависимой переменной Y и одной объясняющей переменной X.

M(Y X = xi) = β0 + β1xi.

(4.5)

Отметим, что принципиальной в данном случае является линейность по параметрам β0 и β1 уравнения.

98

Для отражения того факта, что каждое индивидуальное значение yi отклоняется от соответствующего условного математического ожидания, необходимо ввести в соотношение (4.5) случайное слагаемое εi.

yi = M(Y X = xi) + εi = β0 + β1xi + εi.

(4.6)

Соотношение (4.6) называется теоретической линейной регрессионной моделью; β0 и β1 теоретическими параметрами (теоретическими коэффициентами) регрессии; εi случайным отклонением.

Следовательно, индивидуальные значения yi представляются в виде суммы двух компонент систематической (β0 + β1xi) и случайной (εi), причина появления которой достаточно подробно рассмотрена в разделе 4.2. В общем виде теоретическую линейную регрессионную модель будем представлять в виде

Y = β0 + β1Х + ε.

(4.7)

Для определения значений теоретических коэффициентов регрессии необходимо знать и использовать все значения переменных X и Y генеральной совокупности, что практически невозможно.

Таким образом, задачи линейного регрессионного анализа состоят в том, чтобы по имеющимся статистическим данным ( xi , yi ),

i = 1, 2, …, n, переменных Х и Y:

а) получить наилучшие оценки неизвестных параметров β0 и β1; б) проверить статистические гипотезы о параметрах модели; в) проверить, достаточно ли хорошо модель согласуется со ста-

тистическими данными (адекватность модели данным наблюдений).

Следовательно, по выборке ограниченного объема мы сможем построить так называемое эмпирическое уравнение регрессии

)

+ b1xi ,

(4.8)

yi = b0

где

)

yi оценка условного математического ожидания M(Y X = xi); b0

и b1 оценки неизвестных параметров β0 и β1, называемые эмпири-

ческими коэффициентами регрессии. Следовательно, в конкретном случае

yi = b0 + b1xi + ei,

(4.9)

где отклонение еi оценка теоретического случайного отклонения εi. В силу несовпадения статистической базы для генеральной сово-

купности и выборки оценки b0 и b1 практически всегда отличаются от

99

истинных значений коэффициентов β0 и β1, что приводит к несовпадению эмпирической и теоретической линий регрессии. Различные выборки из одной и той же генеральной совокупности обычно приводят к определению отличающихся друг от друга оценок. Возможное соотношение между теоретическим и эмпирическим уравнениями регрессии схематично изображено на рис. 4.3.

Y

M(Y X) = β0

+ β1X

 

 

 

 

 

εn

 

 

 

 

 

 

 

 

 

 

 

 

 

en

Y = b0

+ b1X

 

 

εi

 

 

 

 

 

 

 

 

 

 

 

 

 

ei

 

 

 

 

e1

 

 

 

 

 

 

 

ε1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X

 

x1

 

xi

xn

 

 

 

 

 

Рис. 4.3

 

 

 

 

 

Задача состоит в том, чтобы по конкретной выборке (xi, yi), i = 1,

2, … , n, найти оценки b0 и b1

неизвестных параметров β0

и β1 так,

чтобы построенная линия регрессии являлась бы наилучшей в определенном смысле среди всех других прямых. Другими словами, постро-

енная прямая Y = b0 + b1X должна быть “ближайшей” к точкам на-

блюдений по их совокупности. Мерами качества найденных оценок могут служить определенные композиции отклонений ei, i = = 1, 2, … , n. Например, коэффициенты b0 и b1 эмпирического уравнения регрессии могут быть оценены, исходя из условия минимизации одной из следующих сумм:

n

n

 

)

 

 

n

 

b0

b1xi ) ;

1) ei

= ∑(yi yi ) = ∑(yi

 

i=1

i=1

 

 

 

 

i=1

 

 

 

 

 

 

n

ei

n

 

 

)

 

 

n

yi

 

b0

b1xi

 

2)

= ∑

yi yi

 

= ∑

 

;

i=1

 

i=1

 

 

 

 

 

i=1

 

 

 

 

 

 

 

n

n

 

)

)2

n

 

b

 

b x

)2 .

3) e2

= ∑(y

i

y

= ∑(y

i

0

 

i

i=1

i

 

 

i=1

 

1 i

 

 

i=1

 

 

 

 

 

 

 

 

 

 

100

Однако первая сумма не может быть мерой качества найденных оценок в силу того, что существует бесчисленное количество прямых

n

(в частности, Y = y ), для которых ei = 0 (доказательство этого ут-

i =1

верждения выносится в качестве упражнения).

Метод определения оценок коэффициентов из условия минимиза-

ции второй суммы называется методом наименьших модулей (МНМ).

Все же самым распространенным и теоретически обоснованным является метод нахождения коэффициентов, при котором минимизи-

n

руется сумма квадратов отклонений ei2 . Он получил название ме-

i =1

тод наименьших квадратов (МНК). Этот метод оценки является наиболее простым с вычислительной точки зрения. Кроме того, оценки коэффициентов регрессии, найденные МНК при определенных предпосылках, обладают рядом оптимальных свойств.

Среди других методов определения оценок коэффициентов регрессии отметим метод моментов (ММ) и метод максимального правдоподобия (ММП).

4.4. Метод наименьших квадратов

Пусть по выборке (xi, yi), i = 1, 2, … , n требуется определить оценки а и b эмпирического уравнения регрессии (4.8).

Y

 

Y = b0

+ b1X

 

en

 

e5

 

 

 

 

e3

e4

.....

 

 

e1e2

x1

x2 x3 x4

x5 .... xn

X

 

Рис. 4.4

 

 

В этом случае при использовании МНК минимизируется следующая функция:

101

n

Q(b0 , b1) = ∑ei2

i=1

n )

= ∑(yi yi )2

i=1

n

= ∑(yi b0 b1xi )2. (4.10)

i=1

Нетрудно заметить, что функция Q является квадратичной функцией двух параметров b0 и b1 (Q = Q(b0, b1)), поскольку xi , yi известные

данные наблюдений. Так как функция Q непрерывна, выпукла и ограничена снизу (Q 0) , то она имеет минимум.

Необходимым условием существования минимума функции двух

переменных Q(b0, b1) = n (yi b0 b1xi )2 является равенство нулю ее

i=1

b0 и b1. В после-

частных производных по неизвестным параметрам

n

будем писать без

дующих формулах для упрощения знаки сумм

i=1

индексов , предполагая, что суммирование ведется от i = 1 до i = n.

Q

= −2(yi b0 b1xi ) = 0;

 

 

b0

 

Q

 

= −2(yi b0 b1xi )xi = 0.

 

b

 

 

1

 

nb

0

+ b

x

i

= ∑ y

;

 

 

 

 

 

1

 

 

 

i

 

 

 

 

 

x

+ b

x2

= ∑ x

y

.

b

 

0

 

i

 

1

 

 

i

 

i

i

 

Разделив оба уравнения системы (4.12) на n, получим:

b

0

+ b x = y;

 

b = xy

x y ;

 

1

 

 

 

1

x2 x2

 

 

 

2

 

 

 

 

 

 

 

 

 

 

b0x + b1x

= xy.

 

 

= y b1x.

 

 

 

 

 

 

 

 

b0

(4.11)

(4.12)

(4.13)

Здесь x = 1

xi ,

 

=

 

1 xi2

,

y = 1

yi ,

 

 

xy = 1

xi yi .

x2

 

 

n

 

 

 

n

 

 

 

n

 

 

 

 

 

 

n

 

Таким образом, по МНК оценки параметров b0 и b1 определяют-

ся по формулам (4.13).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Нетрудно заметить, что b1 можно вычислить по формуле:

 

 

b1

=

 

(xi x)(yi y)

=

Sxy

.

 

(4.14)

Тогда

 

 

(xi x)2

 

S2x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Sxy

 

Sxy

 

 

Sy

 

 

 

 

Sy

 

 

 

 

b

=

 

=

 

 

= r

 

 

,

(4.15)

 

 

 

 

 

 

 

 

 

 

1

 

 

S2x

SxSy Sx

 

xy

 

Sx

 

102

где rxy выборочный коэффициент корреляции; Sx, Sy стандартные отклонения. Таким образом, коэффициент регрессии пропорционален ковариации и коэффициенту корреляции, а коэффициенты пропорциональности служат для соизмерения перечисленных разномерных величин.

Итак, если коэффициент корреляции rxy уже рассчитан, то легко может быть найден коэффициент b1 парной регрессии по формуле

(4.15).

Если, кроме уравнения регрессии Y на X (Y = b0 + bx X) , для тех

же эмпирических данных найдено уравнение регрессии

X на Y

(X = c

0

+ b

y

Y), то произведение коэффициентов bx и by равно r2

:

 

 

 

 

 

 

 

 

 

 

 

 

xy

 

 

 

 

 

 

Sy

 

 

 

 

S

 

2

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

(4.16)

 

 

 

 

bx by = rxy Sx

 

rxy

Sy

= rxy .

 

 

 

 

 

 

 

 

Отметим, что коэффициенты

 

c0 и

by

находятся по формулам,

аналогичным формулам (4.13):

 

xy x y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

by

=

 

 

 

 

 

 

;

 

 

 

 

 

 

 

 

 

y2 y2

 

 

(4.17)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

= x by y.

 

 

 

 

 

 

 

 

c0

 

 

 

 

Проведенные рассуждения и формулы позволяют сделать ряд выводов:

1.Оценки МНК являются функциями от выборки, что позволяет их легко рассчитывать.

2.Оценки МНК являются точечными оценками теоретических коэффициентов регрессии.

3.Согласно второй формуле соотношения (4.12) эмпирическая прямая регрессии обязательно проходит через точку ( x, y ).

4.Эмпирическое уравнение регрессии построено таким образом, что

сумма отклонений ei , а также среднее значение отклонения e равны нулю.

Действительно, из формулы 2(yi b0 b1xi ) = 0 в соотношении

(4.11) следует, что 2 ei = 0. ei = 0. n1 ei = 0. e = 0.

5.Случайные отклонения еi не коррелированны с наблюдаемыми значениями yi зависимой переменной Y.

Для обоснования данного утверждения покажем, что ковариация между Y и е равна нулю. Действительно,

103

Sye = n1 (yi y)(ei e) = n1 (yi y)ei .

____

Покажем, что (yi y )ei = 0. Просуммировав по i (i = 1,n ) все соотношения (4.9), получим:

yi = nb0 + b1xi + ei = nb0 + b1xi (т. к. ei = 0).

Разделив последнее соотношение на n, имеем: y = b0 + b1 x .

Вычитая из (4.9) полученное соотношение, приходим к следующей формуле:

yi y = b1(xi x ) + ei.

(4.18)

Тогда (yi y )ei = b1(xi x )ei = b1(xi x )((yi y ) b1(xix )) =

=b1(xi x )(yi y ) b12 (xi x )2 =

=b12 (xi x )2 b12 (xi x )2 = 0.

Следовательно, Sye = 0.

6. Случайные отклонения еi не коррелированны с наблюдаемыми значениями xi независимой переменной X.

Действительно, Sxe = 0 в силу второй формулы системы (4.11) (доказательство выносится для самостоятельной работы). Случайные отклонения еi не коррелированны с наблюдаемыми значениями yi зависимой переменной Y.

Для иллюстрации МНК рассмотрим следующий пример.

Пример 4.1. Для анализа зависимости объема потребления Y (у. е.) домохозяйства в зависимости от располагаемого дохода X (у. е.) отобрана выборка объема n = 12 (помесячно в течение года), результаты которой приведены в табл. 4.1. Необходимо определить вид зависимости; по методу наименьших квадратов оценить параметры уравнения регрессии Y на X; оценить силу линейной зависимости между X и Y; спрогнозировать потребление при доходе X = 160.

Таблица 4.1

i

1

2

3

4

5

6

7

8

9

10

11

12

 

 

 

 

 

 

 

 

 

 

 

 

 

xi

107

109

110

113

120

122

123

128

136

140

145

150

yi

102

105

108

110

115

117

119

125

132

130

141

144

Для определения вида зависимости построим корреляционное поле:

104

 

Y

 

 

 

 

 

 

 

 

 

 

 

 

 

144

 

 

 

 

 

 

 

 

 

 

 

 

 

 

141

 

 

 

 

 

 

 

 

 

 

 

 

 

 

132

 

 

 

 

 

 

 

 

 

 

 

 

 

130

 

 

 

 

 

 

 

 

 

 

 

 

 

 

125

 

 

 

 

 

 

 

 

 

 

 

 

 

119

 

 

 

 

 

 

 

 

 

 

 

 

 

117

 

 

 

 

 

 

 

 

 

 

 

 

 

115

 

 

 

 

 

 

 

 

 

 

 

 

 

110

 

 

 

 

 

 

 

 

 

 

 

 

 

108

 

 

 

 

 

 

 

 

 

 

 

 

 

105

 

 

 

 

 

 

 

 

 

 

 

 

 

102

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

107 110

113

120

123

128

136

140

145

150

 

X

 

 

 

 

 

 

 

 

Рис. 4.4

 

 

 

 

 

 

 

По расположению точек на корреляционном поле полагаем, что зависимость

между X и Y линейная: Y = b0 + b1X .

 

 

 

 

 

 

 

 

 

Для наглядности вычислений по МНК построим следующую таблицу:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 4.2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi2

 

 

2

)

 

 

2

 

 

 

i

xi

yi

 

 

xiyi

yi

yi

ei

 

ei

 

 

1

 

107

102

 

11449

10914

10404

103.63

1.63

2.66

 

 

2

 

109

105

 

11881

11445

11025

105.49

0.49

0.24

 

3

 

110

108

 

12100

11880

11664

106.43

1.57

 

2.46

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

 

113

110

 

12769

12430

12100

109.23

0.77

 

0.59

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5

 

120

115

 

14400

13800

13225

115.77

0.77

0.59

 

 

6

 

122

117

 

14884

14274

13689

117.63

0.63

0.40

 

7

 

123

119

 

15129

14637

14161

118.57

0.43

 

0.18

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

8

 

128

125

 

16384

16000

15625

123.24

1.76

 

3.10

 

9

 

136

132

 

18496

17952

17424

130.71

1.29

 

1.66

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

10

 

140

130

 

19600

18200

16900

134.45

4.45

19.8

 

 

11

 

145

141

 

21025

20445

19881

139.11

1.89

 

3.57

 

12

 

150

144

 

22500

21600

20736

143.78

0.22

 

0.05

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Сумма

1503

1448

190617

183577

176834

**0

 

35.3

 

 

Среднее

125.25

120.67

15884.75

15298.08

14736.17

 

значения округляются до сотых.

учитываются погрешности округлений.

105

По МНК имеем

 

=

xy x y

=

15298.08 125.25 120.67

=

184.1625

= 0.9339;

b1

 

 

 

 

 

 

 

 

 

 

 

 

15884.75 (125.25)

2

197.1875

 

x 2

x 2

 

 

 

 

 

 

 

 

 

 

= y bx = 120.67 0.9339 125.25 = 3.699.

 

b2

 

Таким образом, уравнение парной линейной регрессии имеет вид:

Y = 3.699 + 0.9339X . Построим данную прямую регрессии на корреляционное поле.

По этому уравнению рассчитаем

)

)

yi

, а также ei = yi yi .

Для анализа силы линейной зависимости вычислим коэффициент корреляции:

r

=

 

 

xy x y

 

=

184.1625 = 0.9914 .

xy

x

2

x

2

 

y

2

y

2

14.04 13.23

 

 

 

 

 

 

 

 

 

Данное значение коэффициента корреляции позволяет сделать вывод о сильной (прямой) линейной зависимости между рассматриваемыми переменными X и Y. Это также подтверждается расположением точек на корреляционном поле.

Прогнозируемое потребление при располагаемом доходе х = 160 по данной модели составит y(160) 153.12.

Построенное уравнение регрессии в любом случае требует определенной интерпретации и анализа. Интерпретация требует словесного описания полученных результатов с трактовкой найденных коэффициентов, с тем чтобы построенная зависимость стала понятной человеку, не являющемуся специалистом в эконометрическом анализе. В нашем примере коэффициент b1 может трактоваться как предельная склонность к потреблению (MPC 0.9339). Фактически он показывает, на какую величину изменится объем потребления, если располагаемый доход возрастает на одну единицу. На графике коэффициент b1 определяет тангенс угла наклона прямой регрессии относительно положительного направления оси абсцисс (объясняющей переменной). Поэтому часто он называется угловым коэффициентом.

Свободный член b0 уравнения регрессии определяет прогнозируемое значение Y при величине располагаемого дохода Х, равной нулю (т. е. автономное потребление). Однако здесь необходима определенная осторожность. Очень важно, насколько далеко данные наблюдений за объясняющей переменной отстоят от оси ординат (зависимой переменной), так как даже при удачном подборе уравнения регрессии для интервала наблюдений нет гарантии, что оно останется таковым и вдали от выборки. В нашем случае значение b0 = 3.699 говорит о том, что при нулевом располагаемом доходе расходы на потребление составят в среднем 3.699 у. е. Это можно объяснить в слу-

106

чае рассмотрения отдельного домохозяйства (оно может тратить накопленные или одолженные средства), но для совокупности домохозяйств это теряет смысл. В любом случае значение коэффициента b0 определяет точку пересечения прямой регрессии с осью ординат и характеризует сдвиг линии регрессии вдоль оси Y.

Следует помнить, что эмпирические коэффициенты регрессии b0 и b1 являются лишь оценками теоретических коэффициентов β0 и β1, а само уравнение отражает лишь общую тенденцию в поведении рассматриваемых переменных. Индивидуальные значения переменных в силу различных причин (см. п. 4.2) могут отклоняться от модельных значений. В нашем примере эти отклонения выражены через значения ei. Эти отклонения являются оценками отклонений εi для генеральной совокупности.

Однако при определенных условиях уравнение регрессии служит незаменимым и очень качественным инструментом анализа и прогнозирования. Обсуждение этих условий будет проведено в последующих главах.

После интерпретации результатов закономерен вопрос о качестве оценок и самого уравнения в целом. Это составит предмет обсуждения следующей главы.

Вопросы для самопроверки

1.Что такое функция регрессии?

2.Чем регрессионная модель отличается от функции регрессии?

3.Назовите основные причины наличия в регрессионной модели случайного отклонения.

4.Назовите основные этапы регрессионного анализа.

5.Что понимается под спецификацией модели, и как она осуществляется?

6.В чем состоит различие между теоретическим и эмпирическим уравнениями регрессии?

7.Дайте определение теоретической линейной регрессионной модели.

8.В чем суть метода наименьших квадратов (МНК)?

9.Приведите формулы расчета коэффициентов эмпирического парного линейного уравнения регрессии по МНК.

10.Как связаны эмпирические коэффициенты линейной регрессии с выборочным коэффициентом корреляции между переменными уравнения регрессии?

11.Какие выводы можно сделать об оценках коэффициентов регрессии и случайного отклонения, полученных по МНК?

12.Проинтерпретируйте коэффициенты эмпирического парного линейного уравнения регрессии.

107

13.Объясните, какое из следующих утверждений истинно, ложно, не определено и почему?

а) Случайная погрешность εi и отклонение еi совпадают.

б) В регрессионной модели объясняющая переменная является фактором изменения зависимой переменной.

в) Линейное уравнение регрессии является линейной функцией относительно входящих в него переменных.

г) Коэффициенты теоретического и эмпирического уравнений регрессии являются по сути случайными величинами.

д) Значения объясняющей переменной парного линейного уравнения регрессии являются случайными величинами.

е) Коэффициент b1 эмпирического парного линейного уравнения регрессии показывает процентное изменение зависимой переменной Y при однопроцентном изменении Х.

ж) Коэффициент b1 регрессии Y на X имеет тот же знак, что и коэффициент корреляции rxy.

з) МНК удобен тем, что нахождение оценок коэффициентов регрессии сводится к решению системы линейных алгебраических уравнений.

и) Парная линейная регрессионная модель имеет слабую практическую значимость, т. к. любая экономическая переменная зависит не от одного, а от большого числа факторов.

14.Можно ли ожидать, с вашей точки зрения, наличия зависимости между следующими показателями:

а) ВНП и объем чистого экспорта; б) объем инвестиций и процентная ставка;

в) расходы на оборону и расходы на образование; г) оценки в школе и оценки в университете;

д) объем импорта и доход на душу населения в некоторой стране; е) цена на кофе и цена на чай.

Вслучае положительного ответа оцените направление зависимости (прямая или обратная), а также решите, какая из переменных будет в этих случаях

объясняющей, а какая зависимой.

15. Как вы считаете, если по одной и той же выборке рассчитаны регрессии Y на

X и X на Y, то совпадут ли в этом случае линии регрессии?

16.Суть метода наименьших квадратов состоит в:

а) минимизации суммы квадратов коэффициентов регрессии; б) минимизации суммы квадратов значений зависимой переменной;

в) минимизации суммы квадратов отклонений точек наблюдений от уравнения регрессии; г) минимизации суммы квадратов отклонений точек эмпирического уравне-

ния регрессии от точек теоретического уравнения регрессии. Выберите правильные ответы.

17.Фактор Y практически линейно зависит от Х. Только в начальный момент времени в силу некоторого нерегулярного внешнего воздействия значение Y

108

сильно отклонилось от общей траектории. По выборочным данным построены две прямые регрессии L1 и L2 (рис. 4.5). Одна по методу наименьшей суммы

модулей отклонений ∑| ei | , другая по методу наименьших квадратов ei2. Какая из линий, по вашему мнению, соответствует каждому из этих методов? Ответ поясните.

Y

 

 

L1

 

 

 

 

 

 

• •

 

 

 

L2

 

 

 

 

 

 

 

 

 

 

 

 

 

X

 

 

 

 

 

 

Рис. 4.5

18. Если переменная Х принимает среднее по выборке значение x , то:

а) наблюдаемая величина зависимой переменной Y равна среднему значению y ;

б) рассчитанное по уравнению регрессии Y = b0 + b1X значение переменной Y в среднем равно y , но не обязательно равно ему в каждом конкретном случае; в) рассчитанное по уравнению регрессии Y = b0 + b1X значение переменной Y равно среднему значению y ;

г) отклонение еi значения y( x ) минимально среди всех других отклонений. Какой из выводов вам представляется верным и почему?

Упражнения и задачи

1. В следующей выборке представлены данные по цене P некоторого блага и количеству данного блага, приобретаемому домохозяйством ежемесячно в течение года.

месяц

1

2

3

4

5

6

7

8

9

10

11

12

 

 

 

 

 

 

 

 

 

 

 

 

 

P

10

20

15

25

30

35

40

35

25

40

45

40

 

 

 

 

 

 

 

 

 

 

 

 

 

Q

110

75

100

80

60

55

40

80

60

30

40

30

 

 

 

 

 

 

 

 

 

 

 

 

 

а) Постройте корреляционное поле и по его виду определите формулу зависимости между P и Q.

б) Оцените по методу наименьших квадратов параметры уравнения линейной регрессии.

в) Оцените выборочный коэффициент корреляции rpq. г) Проинтерпретируйте результаты.

109

2.Дана таблица недельного дохода (Х) и недельного потребления (Y) для 60 домашних хозяйств.

X

Y

 

 

100

60, 65, 75, 85, 90

120

70, 70, 80, 85, 90, 100

140

90, 95, 95, 100, 100,120

160

100, 110, 115, 120, 125, 125, 130

180

110, 120, 120, 130, 135, 140, 150, 150

200

120, 125, 130, 135, 140, 150, 160, 165

220

120, 140, 145, 145, 155, 165, 180

240

150, 160, 170, 190, 200

260

140, 160, 180, 210, 220

280

180, 210, 230

 

 

а) Для каждого уровня дохода рассчитайте среднее потребление, являющееся оценкой условного математического ожидания М(Y X = xi).

б) Постройте корреляционное поле для данной выборки.

в) Постройте эмпирическое линейное уравнение регрессии, используя все данные.

г) Постройте эмпирическое линейное уравнение регрессии, используя только средние значения потребления для каждого уровня дохода.

д) Сравните построенные уравнения. Какое из них, с вашей точки зрения, ближе к теоретическому?

е) Рассчитайте выборочный коэффициент корреляции для в) и г). Будет ли линейная связь между данными переменными существенной? Обоснуйте ответ.

3.По 10 парам наблюдений получены следующие результаты:

xi = 100 ; yi = 200 ; xi yi = 21000 ; xi2 = 12000 ; yi2

= 45000 .

По МНК оцените коэффициенты уравнений регрессии Y на X и

X на Y.

Оцените коэффициент корреляции rxy.

 

4. Дана следующая эмпирическая регрессионная модель:

 

yt = b0 + b1xt + et, t = 1, 2, …, T.

 

Докажите, что et = 0; etxt = 0.

 

5.По выборке объема n = 10 получены следующие данные:

xi = 993.4 ; yi = 531.3 ; xi yi = 53196.61; xi2 = 105004.5 ; rxy = 0.75.

Рассчитайте оценки коэффициентов регрессии Y на X и X на Y.

110

6.Даны две регрессии, рассчитанные по 25 годовым наблюдениям: а) yt = 30 + 0.18xt (yt расходы на оплату жилья, xt доход);

б) yt = 50 + 4.5t (yt расходы на оплату жилья, t время). Дайте экономическую интерпретацию построенных регрессий. Согласуются ли они друг с другом?

7.Определите точечные оценки коэффициентов линейного уравнения регрессии методом максимального правдоподобия, методом моментов. Сравните результаты с МНК.

8.Пусть при исследовании зависимости потребления (CONS) от дохода (INC) в качестве модели выбрана парная линейная регрессия:

CONS = β0 + β1INC + ε.

а) Как в этом случае интерпретируется коэффициент β1?

б) Как в этом случае интерпретируется коэффициент β0?

в) Пусть на основании наблюдений за 100 домохозяйствами построено следующее эмпирическое уравнение регрессии:

CONS = −145.65 + 0.825 INC.

г) Соответствуют ли знаки и значения коэффициентов регрессии теоретическим представлениям?

д) Какова величина предполагаемого потребления домохозяйства с доходом $20000?

е) Чему равна по данной модели предельная склонность к потреблению

(MPC)?

ж) Можно ли по имеющимся статистическим данным построить эмпирическое уравнение регрессии, в котором зависимой переменной является средняя склонность к потреблению (APC)?

з) Построить график приведенного эмпирического уравнения регрессии. Как на его основании можно определить MPC и APC?

111