Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Парная регрессия.doc
Скачиваний:
3
Добавлен:
29.08.2019
Размер:
569.34 Кб
Скачать

Методические указания

В эконометрике широко используется регрессионный анализ как метод выявления уравнения связи между зависимыми и независимыми переменными, наилучшим способом дающим оценку истинного соотношения между этими переменными.

Связь между случайными величинами называется статистической (стохастической, вероятностной) связью. Наличие такой связи заключается в том, что изменение одной из переменных служит причиной для изменения другой. Это можно записать в виде уравнения регрессии y = f(x)+ε. Уравнение регрессии – это формула статистической связи между переменными. Формула статистической связи двух переменных называется парной регрессией.

Определение связи между явлениями и ее описание необходимо начать с теоретического изучения исследуемых явлений. При этом важно выявить наличие причинно-следственной связи между ними и определиться с тем, что выступает в качестве причины (х), а что является следствием (у).

Основными этапами построения регрессионной модели являются:

- построение системы показателей (факторов);

- выбор вида модели и оценка ее параметров;

- проверка качества модели;

- прогнозирование на основе модели регрессии.

Парная регрессия считается достаточной, если имеется один доминирующий фактор (х), который оказывает существенное влияние на результативный показатель (у).

Основным источником информации в экономике выступают данные из статистических источников, то есть, распространен пассивный метод сбора данных как наиболее доступный.

По характеру связи между фактором и результатом парные регрессии бывают линейные и нелинейные. На этапе спецификации модели необходимо определить тип зависимости. Спецификация модели в случае парной регрессии может быть проведена графическим или экспериментальным методами.

По данным Росстата о расходах домашних хозяйств Северо-Западного федерального округа за 2008 год имеется информация, представленная в таблице 1.

Таблица 1 – Расходы домашних хозяйств Северо-Западного федерального округа

Регион

Расходы на конечное потребление (на члена домашнего хозяйства в месяц), руб.

Доля расходов на питание, %

Республика Карелия

9394,5

34,3

Республика Коми

10329,6

30,3

Архангельская область

9055,9

33,4

Bологодская область

8541,4

40,8

Калининградская область

8070,2

39,1

Ленинградская область

8805,4

36,6

Мурманская область

12904,9

30,7

Новгородская область

6633,8

41,1

Псковская область

6397,3

41,9

Требуется подтвердить или опровергнуть один из экономических законов: с ростом уровня жизни снижается доля расходов на питание, и описать его математически с помощью уравнения парной регрессии.

При этом результатом выступает показатель – доля расходов на питание (у), а существенным фактором, характеризующим и уровень жизни и возможности распределения доходов, выступает величина расходов на конечное потребление (х).

Определим тип зависимости между исследуемыми показателями, используя графический метод. Который основан на подборе сглаживающей линии, проходящей через наибольшее количество точек поля корреляции.

Используя возможности табличного редактора Microsoft Excel (вкладка Вставка), строим точечную диаграмму зависимости доли расходов на питание от величины расходов на конечное потребление.

На рисунке 1 построено поле корреляции (диаграмма рассеяния) по исходным данным. Диаграмма рассеяния демонстрирует взаимосвязь величины расходов на конечное потребление (х) и доли расходов на питание (у).

Затем следует методом перебора подобрать линию тренда, наиболее точно проходящую через скопление точек и соответственно лучше описывающую зависимость между фактором и результативным показателем.

Для подбора линии тренда необходимо навести курсор на точки поля корреляции и «кликнуть» правой кнопкой мыши. Из появившегося меню выбрать добавить линию тренда. При этом на вкладке параметры установить метки в показывать уравнение на диаграмме и поместить на диаграмму величину достоверности аппроксимации (R^2 – коэффициент детерминации).

Следует рассмотреть разные возможности сглаживания разброса точек вокруг линии, например, линейная (рисунок 2), логарифмическая (рисунок 3), степенная (рисунок 4).

Визуально и на основе значения коэффициента детерминации (R^2) необходимо выбрать наилучший вариант описания зависимости результативного показателя от фактора. При этом нужно руководствоваться следующим: чем больше значение коэффициента детерминации, тем в значительной степени изменение результативного показателя (у) объясняется изменением фактора (х).

По данным рисунков 2, 3, 4 видно, что наилучшей из рассмотренных зависимостей является логарифмическая, так как по данной модели изменение доли расходов на питание на 78,38 % обусловлено изменением величины расходов на конечное потребление.

Определим тип зависимости между исследуемыми показателями, используя экспериментальный метод. Который базируется на выборе модели, наилучшим образом описывающей связь, на основе ряда характеристик парной регрессии:

- коэффициента (индекса) корреляции;

- коэффициента (индекса) детерминации;

-F-критерия Фишера;

- средней относительной ошибки аппроксимации.

Рассмотрим четыре типа модели парной регрессии, которые получили наибольшее распространение в практике эконометрического моделирования:

- линейная;

- степенная;

- показательная;

- гиперболическая.

а) Построение линейной модели парной регрессии

Уравнение линейной регрессии имеет вид: y = a + bx.

Для определения параметров модели и ряда характеристик парной регрессии составим вспомогательную таблицу 2.

Таблица 2 – Промежуточные расчеты для оценки линейной парной регрессии

Регион

х

у

х2

ух

у- = е

|е|∙100/у

Республика Карелия

9394,5

34,3

88256630,25

322231,4

35,5

-1,2

3,6

Республика Коми

10330

30,3

106700636,2

312986,9

33,7

-3,4

11,1

Архангельская область

9055,9

33,4

82009324,81

302467,1

36,2

-2,8

8,4

Bологодская область

8541,4

40,8

72955513,96

348489,1

37,2

3,6

8,7

Калининградская область

8070,2

39,1

65128128,04

315544,8

38,2

0,9

2,4

Ленинградская область

8805,4

36,6

77535069,16

322277,6

36,7

-0,1

0,3

Мурманская область

12905

30,7

166536444

396180,4

28,5

2,2

7,1

Новгородская область

6633,8

41,1

44007302,44

272649,2

41,1

0,1

0,1

Псковская область

6397,3

41,9

40925447,29

268046,9

41,5

0,4

0,9

Всего

80133

328,2

744054496,1

2860873

328,6

Х

42,6

На основе фактических исходных данных можно определить параметры линейного уравнения парной регрессии (а, b) с помощью метода наименьших квадратов. Для этого необходимо решить следующую систему нормальных уравнений:

где n - число наблюдений.

9a+80133b=328,2

80133a+744054496b=2860873

(информация взята из итоговой строки таблицы 2)

Решая данную систему нормальных уравнений, находим значения параметров уравнения линейной парной регрессии:

а = 54,319; b = -0,002 .

Также эти параметры можно определить, используя статистические функции ОТРЕЗОК (определяет параметр а) и НАКЛОН (определяет параметр b).

Тогда линейное уравнение регрессии примет вид:

= 54,319 - 0,002x.

Параметр b в уравнении регрессии называется коэффициентом регрессии и в большинстве случаев имеет конкретный экономический смысл. В уравнении парной линейной регрессии показывает на сколько единиц изменится результативный показатель, при изменении фактора на единицу, то есть характеризует абсолютную скорость изменения. Знак при коэффициенте регрессии указывает направление связи между фактором и результативным показателем:

если b>0, следовательно, связь прямая и с увеличением значения фактора (х) возрастает и значение результативного показателя (у);

если b<0, следовательно, связь обратная и с увеличением значения фактора (х) снижается значение результативного показателя (у).

Таким образом, при увеличении расходов на конечное потребление на 1 рубль, в среднем доля расходов на питание снижается на 0,002 %.

Для оценки тесноты связи между изучаемыми показателями рассчитывают линейный коэффициент парной корреляции rxy::

Значения коэффициента могут варьировать в пределах [-1; 1]. Чем ближе |rxy| к 1 тем более тесная связь между изучаемыми признаками. rxy=0, означает, что отсутствует линейная зависимость, однако между признаками может иметь место нелинейная зависимость. Степень тесноты связи оценивают по шкале Чеддока (таблица 3).

Таблица 3 – Шкала Чеддока

Количественная мера тесноты связи |rxy|

Качественная

характеристика силы связи

0

Отсутствует

0,1 - 0,3

Слабая

0,3 - 0,5

Умеренная

0,5 - 0,7

Заметная

0,7 - 0,9

Высокая

0,9 - 0,99

Весьма высокая

1

Функциональная

Знак при линейном коэффициенте парной корреляции также указывает направление связи между фактором и результативным показателем:

если rxy >0, следовательно, связь прямая и с увеличением значения фактора (х) возрастает и значение результативного показателя (у);

если rxy <0, следовательно, связь обратная и с увеличением значения фактора (х) снижается значение результативного показателя (у).

Для определения значения линейного коэффициента парной корреляции можно воспользоваться статистической функцией КОРРЕЛ.

rxy= -0,871. Следовательно, линейная связь между величиной конечных расходов домохозяйств и долей расходов на питание высокая и обратная.

Для оценки качества линейной связи, определяют коэффициент детерминации, как квадрат линейного коэффициента парной корреляции r2xy. Коэффициент детерминации может принимать значения [0; 1]. Чем ближе к 1, тем лучше качество связи. Значение коэффициента детерминации показывает долю вариации (изменения) результативного показателя, обусловленную вариацией (изменением) фактора. Значение (1- r2xy) показывает долю вариации (изменения) результативного показателя, обусловленную вариацией (изменением) прочих факторов, неучтенных в модели.

r2xy=0,758. Следовательно, на 75,8 % изменение доли расходов на питание обусловлено изменением величины расходов на конечное потребление и только на (1-0,758) 24,2 % связано с влиянием прочих факторов, не исследуемых в данной модели.

После того, как найдено уравнение линейной регрессии, проводится оценка его значимости с помощью F- критерия Фишера. При этом выдвигается нулевая гипотеза о том, что коэффициент регрессии равен нулю и, следовательно, фактор х не оказывает влияния на результат y.

Величина F- критерия связана с коэффициентом детерминации.

,

где n- число наблюдений;

m- количество факторов (в модели парной регрессии m=1).

Расчетное значение F- критерия сравнивают с табличным Fтабл (критическим).

Критическое значение F- критерия определяется по таблице критических значений F при разных уровнях существенности  (как правило,  = 0,05 или 0,1) и двух степенях свободы (k1=m; k2=n-m-1). Также табличное (или критическое) значение F- критерия можно определить с помощью статистической функции FРАСПОБР.

Вычисленное значение F-критерия признается достоверным, если оно больше табличного, т.е. Fрасч>Fтабл. В этом случае выдвинутая гипотеза отклоняется и делается вывод о существенности статистической связи между y и x.

Если Fрасч<Fтабл, то уравнение регрессии считается статистически незначимым и связь между фактором и результатом отсутствует.

Fтабл= 5,59

Так как расчетное значение F-критерия больше критического, то имеет место существенная статистическая связь между величиной расходов на конечное потребление и долей расходов на питание.

Для оценки качества построенной модели рассчитывают среднюю ошибку аппроксимации (А), которая показывает, на сколько процентов в среднем отличаются фактические значения результативного показателя (у) от значений, рассчитанных по построенной модели ( .

Средняя ошибка аппроксимации определяется по формуле:

где - значение результативного показателя (нормализованное), рассчитанное по уравнению парной регрессии, путем подстановки соответствующих значений факторов;

е – ошибка, «возмущение», которая присутствует в модели в связи с тем, что на результативный показатель оказывают действие и другие факторы, которые не учтены в уравнении парной регрессии.

Модель регрессии считается хорошо подобранной и достаточно точно описывающей связь между фактором и результативным показателем, если величина средней ошибки аппроксимации не превышает 10 %.

Нормализованные значения результативного показателя рассчитаны по линейной регрессионной модели: = 54,319 - 0,002x.

Например, по Республике Карелия величина расходов на конечное потребление составила 9394,5 руб., тогда если другие факторы не оказывают никакого воздействия, то доля расходов на питание составит: 54,319 - 0,0029394,5 =35,5 %, это и будет нормализованная величина результативного показателя .

Однако, в результате того, что на долю расходов на питание оказывают влияние и другие факторы, реальное значение данного показателя отличается от нормализованного на величину «возмущения» е =у- =34,3-35,5=-1,2.

В последнем столбце таблицы 2 рассчитаны ошибки аппроксимации по каждому региону отдельно. Общая величина ошибки составила 42,6%, следовательно, средняя ошибка аппроксимации будет определена как:

.

Таким образом, расчётные значения доли расходов на питание для линейной модели отличаются от фактических значений в среднем на 4,7 %. Модель линейной регрессии достаточно точно описывает связь между величиной расходов на конечное потребление и долей расходов на питание.

Рассмотрим возможность описания зависимости между величиной расходов на конечное потребление и долей расходов на питание с помощью нелинейных моделей парной регрессии.

б) Построение степенной модели парной регрессии

Уравнение парной степенной модели имеет вид: y = a  xb.

Для определения параметров регрессии (a и b) также может быть использован метод наименьших квадратов, однако для этого необходимо произвести линеаризацию переменных (приведение уравнения к линейному виду).

Для степенной модели линеаризация заключается в логарифмировании обеих частей уравнения:

lg y = lg a + b lg x.

Введем условные обозначения: Y = lg y, X = lg x, A = lg a. Тогда уравнение примет вид: Y = A + bX (линейное уравнение регрессии).

Для определения параметров модели и ряда характеристик парной регрессии составим вспомогательную таблицу 4.

Таблица 4 – Промежуточные расчеты для определения параметров

степенной парной регрессии

Регион

х

lg x=Х

у

lg y=У

Х2

УХ

Республика Карелия

9394,5

3,97

34,3

1,54

15,78

6,10

Республика Коми

10330

4,01

30,3

1,48

16,11

5,95

Архангельская область

9055,9

3,96

33,4

1,52

15,66

6,03

Bологодская область

8541,4

3,93

40,8

1,61

15,46

6,33

Калининградская область

8070,2

3,91

39,1

1,59

15,26

6,22

Ленинградская область

8805,4

3,94

36,6

1,56

15,56

6,17

Мурманская область

12905

4,11

30,7

1,49

16,90

6,11

Новгородская область

6633,8

3,82

41,1

1,61

14,61

6,17

Псковская область

6397,3

3,81

41,9

1,62

14,49

6,17

Всего

80133

35,47

328,2

14,03

139,83

55,25

Для определения значений lgx (lgу) используйте математическую функцию LOG10.

На основе преобразований исходных данных можно определить параметры линеаризованного уравнения парной регрессии (А, b) с помощью метода наименьших квадратов. Для этого необходимо решить следующую систему нормальных уравнений:

где n - число наблюдений.

9A+35,47b=14,03

35,47A+139,83b=55,25

(информация взята из итоговой строки таблицы 4)

Решая данную систему нормальных уравнений, находим значения параметров уравнения линейной парной регрессии:

A = 3,6029; b = -0,5187 .

Также эти параметры можно определить, используя статистические функции ОТРЕЗОК (определяет параметр A) и НАКЛОН (определяет параметр b). Важно, в качестве области значений у выделить значения lg у, в качестве области значений х – значения lg х.

Тогда линеаризованное уравнение регрессии примет вид:

У= 3,6029 - 0,5187Х.

Перейдем к исходным переменным x и y, выполнив потенцирование данного уравнения:

Получим уравнение степенной модели парной регрессии:

Параметр b в уравнении регрессии называется коэффициентом регрессии и в большинстве случаев имеет конкретный экономический смысл. В уравнении парной степенной регрессии параметр b показывает: на сколько процентов изменится результативный показатель, при изменении фактора на 1%, то есть является коэффициентом эластичности. Знак при коэффициенте регрессии указывает направление связи между фактором и результативным показателем:

если b>0, следовательно, связь прямая и с увеличением значения фактора (х) возрастает и значение результативного показателя (у);

если b<0, следовательно, связь обратная и с увеличением значения фактора (х) снижается значение результативного показателя (у).

Таким образом, при увеличении расходов на конечное потребление на 1 %, в среднем доля расходов на питание снижается на 0,5 %.

Для оценки тесноты связи между изучаемыми показателями при нелинейной регрессии рассчитывают индекс парной корреляции Rxy. Значения коэффициента могут варьировать в пределах [0; 1]. Чем ближе к 1, тем более тесная связь между признаками. Степень тесноты связи также оценивают по шкале Чеддока (таблица 3).

,

где - средняя величина результативного показателя, определяемая по формуле:

=

Для определения значения индекса парной корреляции необходимо предварительно рассчитать нормализованное значение результативного показателя . Нормализованные значения определяют путем подстановки фактических значений фактора в найденное уравнение степенной регрессии . Например, для Республики Карелия при величине расходов на конечное потребление 9394,5 руб. доля расходов на питание составит: .

Таблица 5 – Вспомогательная таблица для оценки степенной парной регрессии

Регион

у- = е

(у- )2= е2

у-

(у- )2

|е|∙100/у

Республика Карелия

34,8

-0,5

0,3

-2,2

4,7

0,9

Республика Коми

33,2

-2,9

8,3

-6,2

38,0

27,2

Архангельская область

35,5

-2,1

4,5

-3,1

9,4

13,4

Bологодская область

36,6

4,2

17,6

4,3

18,8

43,0

Калининградская область

37,7

1,4

1,9

2,6

6,9

5,0

Ленинградская область

36,0

0,6

0,3

0,1

0,0

0,9

Мурманская область

29,6

1,1

1,3

-5,8

33,3

4,3

Новгородская область

41,7

-0,6

0,4

4,6

21,5

1,0

Псковская область

42,5

-0,6

0,4

5,4

29,5

1,0

Всего

327,7

0,5

35,0

-

162,1

96,6

Следовательно, связь между величиной конечных расходов домохозяйств и долей расходов на питание высокая.

Для оценки качества связи при нелинейной зависимости, определяют индекс детерминации, как квадрат индекса парной корреляции R2xy. Интерпретация и диапазон значений индекса детерминации аналогичны коэффициенту детерминации. R2xy=0,8862=0,784 Следовательно, на 78,4 % изменение доли расходов на питание обусловлено изменением величины расходов на конечное потребление и только на (1-0,784) 21,6 % связано с влиянием прочих факторов, не исследуемых в данной модели.

После того, как найдено уравнение нелинейной регрессии, также проводится оценка его значимости с помощью F- критерия Фишера. При этом выдвигается нулевая гипотеза о том, что коэффициент регрессии равен нулю и, следовательно, фактор х не оказывает влияния на результат y.

Величина F- критерия в нелинейной парной регрессии связана с индексом детерминации.

,

где n- число наблюдений;

m- количество факторов (в модели парной регрессии m=1).

Fтабл= 5,59

Так как расчетное значение F-критерия больше табличного, то имеет место существенная статистическая связь между величиной расходов на конечное потребление и долей расходов на питание.

Для оценки качества построенной модели рассчитывают среднюю ошибку аппроксимации А.

В последнем столбце таблицы 5 рассчитаны ошибки аппроксимации по каждому региону отдельно. Общая величина ошибки составила 96,6%, следовательно, средняя ошибка аппроксимации определяется как:

.

Таким образом, расчётные значения доли расходов на питание для степенной модели отличаются от фактических значений в среднем на 10,7 %. Модель степенной регрессии недостаточно адекватно описывает связь между величиной расходов на конечное потребление и долей расходов на питание.

в) Построение показательной модели парной регрессии

Уравнение модели показательной парной регрессии имеет вид:

y = a  bx.

Расчетные и аналитические процедуры для показательной парной регрессии аналогичны степенной регрессии.

Для показательной модели линеаризация заключается в логарифмировании обеих частей уравнения:

lg y = lg a + х lg b.

Введем условные обозначения: Y = lg y, B = lg b, A = lg a. Тогда уравнение примет вид: Y = A + Bx (линейное уравнение регрессии).

Для определения параметров модели и ряда характеристик парной регрессии составим вспомогательную таблицу 6.

Таблица 6 – Промежуточные расчеты для определения параметров

показательной парной регрессии

Регион

х

у

lg y=У

х2

Ух

Республика Карелия

9394,5

34,3

1,54

88256630

14423,3

Республика Коми

10330

30,3

1,48

106700636

15302,7

Архангельская область

9055,9

33,4

1,52

82009325

13798,9

Bологодская область

8541,4

40,8

1,61

72955514

13757,3

Калининградская область

8070,2

39,1

1,59

65128128

12849,2

Ленинградская область

8805,4

36,6

1,56

77535069

13767,1

Мурманская область

12905

30,7

1,49

166536444

19191,4

Новгородская область

6633,8

41,1

1,61

44007302

10705,9

Псковская область

6397,3

41,9

1,62

40925447

10377,8

Всего

80133

328,2

14,03

744054496

124173,5

На основе преобразований исходных данных можно определить параметры линеаризованного уравнения парной регрессии (А, B) с помощью метода наименьших квадратов. Для этого необходимо решить следующую систему нормальных уравнений:

где n - число наблюдений.

9А+80133B=14,03

80133A+744054496B=124173,5

(информация взята из итоговой строки таблицы 6)

Решая данную систему нормальных уравнений, находим значения параметров уравнения линейной парной регрессии:

А = 1,776; В =-0,000024.

Также эти параметры можно определить, используя статистические функции ОТРЕЗОК (определяет параметр А) и НАКЛОН (определяет параметр В). Важно, в качестве области значений у выделить значения lg у, в качестве области значений х – исходные значения х.

Тогда линеаризованное уравнение регрессии примет вид:

У= 1,776 - 0,000024x.

Перейдем к исходным переменным x и y, выполнив потенцирование данного уравнения.

Получим уравнение модели парной показательной регрессии:

В уравнении парной показательной регрессии параметр b показывает во сколько раз вырастет результативный показатель, при изменении фактора на 1, то есть является коэффициентом динамики.

Для оценки тесноты связи между изучаемыми показателями рассчитывают индекс парной корреляции Rxy.

,

где - средняя величина результативного показателя, определяемая по формуле:

=

Для определения значения индекса парной корреляции необходимо предварительно рассчитать нормализованное значение результативного показателя . Нормализованные значения определяют путем подстановки фактических значений фактора в найденное уравнение показательной регрессии . Например, для Республики Карелия при величине конечных расходов 9394,5 руб. доля расходов на питание составит: .

Таблица 7 – Вспомогательная таблица для оценки показательной регрессии

Регион

у- = е

(у- )2= е2

у-

(у- )2

|е|∙100/у

Республика Карелия

35,2

-0,9

0,9

-2,2

4,7

2,7

Республика Коми

33,4

-3,1

9,8

-6,2

38,0

10,3

Архангельская область

35,9

-2,5

6,3

-3,1

9,4

7,5

Bологодская область

37,0

3,8

14,8

4,3

18,8

9,4

Калининградская область

37,9

1,2

1,3

2,6

6,9

2,9

Ленинградская область

36,4

0,2

0,0

0,1

0,0

0,5

Мурманская область

28,9

1,8

3,1

-5,8

33,3

5,8

Новгородская область

41,1

0,0

0,0

4,6

21,5

0,1

Псковская область

41,7

0,2

0,0

5,4

29,5

0,5

Всего

327,6

0,6

36,2

-

162,1

39,8

Следовательно, связь между величиной конечных расходов домохозяйств и долей расходов на питание высокая.

Для оценки качества нелинейной связи, определяют индекс детерминации, как квадрат индекса парной корреляции R2xy.

R2xy=0,8732=0,762

Следовательно, на 76,2 % изменение доли расходов на питание обусловлено изменением величины расходов на конечное потребление и только на (1-0,762) 23,8 % связано с влиянием прочих факторов, не исследуемых в данной модели.

После того, как найдено уравнение нелинейной регрессии, также проводится оценка его значимости с помощью F- критерия Фишера.

Fтабл= 5,59

Так как расчетное значение F-критерия больше табличного, то имеет место существенная статистическая связь между величиной расходов на конечное потребление и долей расходов на питание.

Для оценки качества построенной модели рассчитывают среднюю ошибку аппроксимации А.

В последнем столбце таблицы 7 рассчитаны ошибки аппроксимации по каждому региону отдельно. Общая величина ошибки составила 39,8%, следовательно, средняя ошибка аппроксимации определяется как:

.

Таким образом, расчётные значения доли расходов на питание для показательной модели отличаются от фактических значений в среднем на 4,4 %. Модель показательной регрессии достаточно адекватно описывает связь между величиной расходов на конечное потребление и долей расходов на питание.

г) Построение гиперболической модели парной регрессии

Уравнение парной гиперболической модели имеет вид: y = a +

Для гиперболической модели линеаризация заключается в замене на Х.

Тогда уравнение примет вид: у=а + bХ (линейное уравнение регрессии).

Для определения параметров модели и ряда характеристик парной регрессии составим вспомогательную таблицу 8.

Таблица 8 – Промежуточные расчеты для определения параметров

гиперболической парной регрессии

Регион

х

у

= Х

Х2

уХ

Республика Карелия

9394,5

34,3

0,00011

0,000000011

0,0037

Республика Коми

10330

30,3

0,00010

0,000000009

0,0029

Архангельская область

9055,9

33,4

0,00011

0,000000012

0,0037

Bологодская область

8541,4

40,8

0,00012

0,000000014

0,0048

Калининградская область

8070,2

39,1

0,00012

0,000000015

0,0048

Ленинградская область

8805,4

36,6

0,00011

0,000000013

0,0042

Мурманская область

12905

30,7

0,00008

0,000000006

0,0024

Новгородская область

6633,8

41,1

0,00015

0,000000023

0,0062

Псковская область

6397,3

41,9

0,00016

0,000000024

0,0065

Всего

80133

328,2

0,00105

0,000000128

0,0392

На основе преобразований исходных данных можно определить параметры линеаризованного уравнения парной регрессии (а, b) с помощью метода наименьших квадратов. Для этого необходимо решить следующую систему нормальных уравнений:

где n - число наблюдений.

9а+0,00105b=328,2

0,00105a+0,000000128b=0,0392

(информация взята из итоговой строки таблицы 8)

Решая данную систему нормальных уравнений, находим значения параметров уравнения линейной парной регрессии:

a = 17,6 ; b = 160957,2.

Также эти параметры можно определить, используя статистические функции ОТРЕЗОК (определяет параметр а) и НАКЛОН (определяет параметр b). Важно, в качестве области значений х принять значения Х (т.е. ).

Тогда линеаризованное уравнение регрессии примет вид:

у=17,6+160957,2Х

Перейдем к исходной переменной x. Получим уравнение модели парной гиперболической регрессии:

= 17,6+ .

Для оценки тесноты нелинейной связи между изучаемыми показателями рассчитывают индекс парной корреляции Rxy.

,

где - средняя величина результативного показателя, определяемая по формуле:

=

Для определения значения индекса парной корреляции необходимо предварительно рассчитать нормализованное значение результативного показателя . Нормализованные значения определяют путем подстановки фактических значений фактора в найденное уравнение гиперболической регрессии = 17,6+ . Например, для Республики Карелия при величине конечных расходов 9394,5 руб. доля расходов на питание составит: = 17,6+ .

Таблица 9 – Вспомогательная таблица для оценки гиперболической регрессии

Регион

у- = е

(у- )2= е2

у-

(у- )2

|е|∙100/у

Республика Карелия

34,8

-0,5

0,2

-2,2

4,7

1,4

Республика Коми

33,2

-2,9

8,5

-6,2

38,0

9,6

Архангельская область

35,4

-2,0

4,0

-3,1

9,4

6,0

Bологодская область

36,5

4,3

18,6

4,3

18,8

10,6

Калининградская область

37,6

1,5

2,3

2,6

6,9

3,9

Ленинградская область

35,9

0,7

0,5

0,1

0,0

1,9

Мурманская область

30,1

0,6

0,3

-5,8

33,3

1,9

Новгородская область

41,9

-0,8

0,6

4,6

21,5

2,0

Псковская область

42,8

-0,9

0,8

5,4

29,5

2,1

Всего

328,2

0,0

36,0

-

162,1

39,4

Следовательно, связь между величиной конечных расходов домохозяйств и долей расходов на питание высокая.

Для оценки качества связи, определяют индекс детерминации, как квадрат индекса парной корреляции R2xy.

R2xy=0,8822=0,778

Следовательно, на 77,8 % изменение доли расходов на питание обусловлено изменением величины расходов на конечное потребление и только на (1-0,778) 22,2 % связано с влиянием прочих факторов, не исследуемых в данной модели.

После того, как найдено уравнение нелинейной регрессии, также проводится оценка его значимости с помощью F- критерия Фишера.

Fтабл= 5,59

Так как расчетное значение F-критерия больше табличного, то имеет место существенная статистическая связь между величиной расходов на конечное потребление и долей расходов на питание.

Для оценки качества построенной модели рассчитывают среднюю ошибку аппроксимации А.

В последнем столбце таблицы 9 рассчитаны ошибки аппроксимации по каждому региону отдельно. Общая величина ошибки составила 39,4%, следовательно, средняя ошибка аппроксимации определяется как:

.

Таким образом, расчётные значения доли расходов на питание для гиперболической модели отличаются от фактических значений в среднем на 4,4 %. Модель гиперболической регрессии достаточно адекватно описывает связь между величиной расходов на конечное потребление и долей расходов на питание.

Для выбора лучшей модели построим сводную таблицу результатов.

Таблица 10 – Обобщенная характеристика моделей парной регрессии

Модель

Индекс

(коэффициент) детерминации

F-критерий Фишера

Средняя

ошибка аппроксимации, %

Линейная

0,758

21,97

4,7

Степенная

0,784

25,45

10,7

Показательная

0,762

22,38

4,4

Гиперболическая

0,778

24,52

4,4

Исходя из данных таблицы 10, характеризующих парную регрессию между изучаемыми признаками, выбираем оптимальный вариант. При выборе модели необходимо руководствоваться следующими моментами:

1) чем выше значение индекса (коэффициента) детерминации, тем лучше качество подобранной функции для описания связи между изучаемыми показателями. Однако значение менее 0,5 свидетельствует о том, что применение парной регрессии не обосновано, так как имеются другие факторы, которые оказывают существенной влияние на результативный показатель и пренебрегать ими нельзя.

2) чем больше значение F-критерия, тем более существенной (значимой) является статистическая связь между исследуемыми показателями;

3) чем меньше значение средней ошибки аппроксимации, тем лучше модель описывает реальную зависимость между фактором и результативным показателем;

4) целесообразно сравнить значение индекса детерминации R2xy (рассчитанного для различных видов нелинейных регрессии) со значением коэффициента детерминации r2xy (рассчитанного для линейной регрессии), для обоснования возможности применения линейной функции. Если |R2xy - r2xy|<0,1, то линейная зависимость считается оправданной и усложнять форму уравнения регрессии не следует.

Исходя из четвертого пункта, выбираем модель парной линейной регрессии, так как разность между значениями индексов детерминации и коэффициента детерминации не существенна.

= 54,319 - 0,002x.

Следовательно, зависимость между величиной расходов на конечное потребление и долей расходов на питание с высокой степенью достоверности может быть охарактеризована как линейная, обратная.

Одной из прикладных целей эконометрического моделирования является построение прогнозных значений результативного показателя, при определенных значениях фактора. При этом, следует различать предсказанное и прогнозное значения результативного показателя.

Если в построенную модель парной регрессии подставляется значение фактора (х), входящее в интервал исходных данных [xmin; xmax], то полученное значение результативного показателя называется предсказанием ( ).

Если в построенную модель парной регрессии подставляется значение фактора (х), выходящее за рамки интервала исходных данных [xmin; xmax], то полученное значение результативного показателя называется прогнознымпр). Однако следует помнить, что чем дальше расположено прогнозное значение фактора от границ интервала исходных данных, тем менее точным будет прогноз.

Следует различать точечный и интервальный прогноз.

Путем подстановки в уравнение регрессии соответствующего значения фактора хпр, получают прогнозное значение результативного показателя упр точечный прогноз.

Однако точечный прогноз не является точным, так как на результативный показатель оказывают влияние случайные факторы в настоящем и будут влиять и в дальнейшем, причем сила и направление их воздействия могут меняться. Поэтому целесообразно прогнозное значение результативного показателя представлять в виде доверительного интервала его возможных значений.

Для определения границ доверительного интервала необходимо точечное прогнозное значение результативного показателя скорректировать на величину предельной ошибки ∆пр. Доверительный интервал всегда определяется с заданной значимостью α.

Величина предельной ошибки определяется по формуле:

,

где μ – стандартная ошибка прогноза,

tтабл – табличное значение t- критерия Стьюдента.

где - среднее значение фактора

Для определения табличного значения t-критерия Стьюдента можно воспользоваться статистической функцией СТЬЮДРАСПОБР, при этом необходимо задать уровень значимости α и количество степеней свободы k.

α обычно принимается равным 0,05. Это означает, что с вероятностью 95 % (1- α) прогнозное значение результативного показателя будет находиться в пределах доверительного интервала.

k=n-m-1.

Определим прогнозное значение доли расходов на питание, если величина расходов на конечное потребление составит 14500 руб. (хпр). Прогнозное значение расходов на конечное потребление выходит за рамки интервала исходных данных [6397,3; 12905].

Определим возможное значение доли расходов на питание (точечный прогноз), путем подстановки заданной величины расходов на конечное потребление в выбранную модель парной линейной регрессии:

упр = 54,319 - 0,002xпр = 54,319 – 0,002∙14500 =25 %.

Следовательно, можно ожидать, что при размере расходов на конечное потребление 14500 руб., доля расходов на питание составит 25%.

Определим с вероятностью 95%, интервал возможных значений доли расходов на питание при величине расходов на конечное потребление 14500 руб.

Рассчитаем стандартную ошибку прогноза μ. Для этого построим вспомогательную таблицу 11.

Таблица 11 – Промежуточные расчеты для расчета стандартной ошибки

Регион

х

у

у- = е

(у- )2= е2

( )2

Республика Карелия

9394,5

34,3

35,5

-1,2

1,44

490,8

240917,4

Республика Коми

10330

30,3

33,7

-3,4

11,56

1426,3

2034427

Архангельская область

9055,9

33,4

36,2

-2,8

7,84

152,2

23174,99

Bологодская область

8541,4

40,8

37,2

3,6

12,96

-362,3

131237,1

Калининградская область

8070,2

39,1

38,2

0,9

0,81

-833,5

694666,7

Ленинградская область

8805,4

36,6

36,7

-0,1

0,01

-98,3

9656,338

Мурманская область

12905

30,7

28,5

2,2

4,84

4001,3

16010668

Новгородская область

6633,8

41,1

41,1

0,1

0,01

-2269,9

5152295

Псковская область

6397,3

41,9

41,5

0,4

0,16

-2506,4

6281874

Всего

80133

328,2

328,6

Х

39,62

Х

30578916

=

= =2,51

tтабл = 2,36.

Тогда предельная ошибка составит:

=2,51∙2,36=6

Корректируем на величину предельной ошибки точечное прогнозное значение результативного показателя и определим границы доверительного интервала.

- нижняя граница доверительного интервала.

- верхняя граница доверительного интервала.

Следовательно, с вероятностью 95% можно утверждать, что при величине расходов на конечное потребление 14500 руб., доля расходов на питание составит от 19% до 31%.

Список литературы

1. Варюхин, А.М. Эконометрика [Текст]: конспект лекций/ А.М.Варюхин, О.Ю. Панкина, А.В. Яковлева – М.: Юрайт-Издат, 2007. – 191 с.

2. Доугерти, К. Введение в эконометрику [Текст]: учебник / К.Доугерти. – 2-е изд. – М.: ИНФРА-М, 2007. – 432 с.

3. Елисеева, И.И. Эконометрика [Текст]: учебник / И.И. Елисеева [и др.]; под ред. И.И.Елисеевой. – 2-е изд., перераб. и доп. – М.: Финансы и статистика, 2007. – 576 с.

4. Кочетыгов, А.А. Основы эконометрики [Текст]: учеб. пособие / А.А.Кочетыгов, Л.А.Толоконников. – М.: ИКЦ «МарТ», 2007. – 344 с.

5. Кремер, Н.Ш. Эконометрика [Текст]: учебник / Н.Ш. Кремер, Б.А. Путко / Под ред. проф. Н.Ш. Кремера. - М.: ЮНИТИ-ДАНА, 2002. — 311 с.

6. Магнус, Я.Р. Эконометрика. Начальный курс [Текст]: учебник / Я.Р.Магнус, П.К. Катышев, А.Л. Пересецкий. — 6-е изд., перераб. и доп. - М.: Дело, 2004. — 576 с.

7. Новиков, А.И. Эконометрика [Текст]: учеб. пособие / А.И.Новиков. - 2-е изд., испр. и доп. – М.: ИНФРА-М, 2007. - 144 с.

8. Орлов, А.И. Эконометрика [Текст]: учебник / А.И. Орлов. - 3-е изд., перераб. и доп.- М.: Изд-во«ЭКЗАМЕН», 2004. - 445 с.

9. Тихомиров, Н.П. Эконометрика [Текст]: учебник / Н.П. Тихомиров, Е.Ю. Дорохина. – М.: Изд-во Рос. экон. акад., 2002.- 640 с.

10. Елисеева, И.И. Практикум по эконометрике [Текст]: учеб. пособие / И.И. Елисеева, С.В. Курышева, Н.М.Гордиенко [и др.]; под ред. И.И.Елисеевой. – 2-е изд., перераб. и доп. – М.: Финансы и статистика, 2008. – 344 с.

11. Приходько, А.И. Практикум по эконометрике: регрессионный анализ средствами Excel [Текст] / А.И. Приходько. – Ростов н/Д: Феникс, 2007. – 256 с.

12. Просветов, Г.И. Эконометрика: задачи и решения [Текст]: учебно-практ. пособие / Г.И.Просветов. – 5-е изд., доп. – М.: Издательство «Альфа-Пресс», 2008. – 192 с.