- •Лабораторная работа № 3 «Регрессионный анализ»
- •Оценка параметров регрессионного уравнения
- •Матричная форма записи
- •Решение
- •Анализ статистической значимости параметров модели парной регрессии
- •Интервальная оценка параметров модели
- •Прогнозирование с применением уравнения регрессии
- •Коэффициент детерминации:
Анализ статистической значимости параметров модели парной регрессии
Значения , соответствующие данным при теоретических значениях и являются случайными. Случайными являются и рассчитанные по ним значения коэффициентов и .
Надежность получаемых оценок и зависит от дисперсии случайных отклонений (ошибок). По данным выборки эти отклонения и, соответственно, их дисперсия не оцениваются – в расчетах используются отклонения зависимой переменной от ее расчетных значений : . Так как ошибки (остатки) нормально распределены, то среднеквадратическое отклонение ошибок используется для измерения этой вариации. Среднеквадратические отклонения коэффициентов известны как стандартные ошибки (отклонения):
(3.17)
где - среднее значение независимой переменной х;
стандартная ошибка, вычисляемая по формуле (3.16);
.
Проверка значимости отдельных коэффициентов регрессии связана с определением расчетных значений t-критерия (t–статистики) для соответствующих коэффициентов регрессии:
(3.18)
Затем расчетные значения сравниваются с табличными tтабл. Табличное значение критерия определяется при (n-2) степенях свободы (n - число наблюдений) и соответствующем уровне значимости (0,1; 0,05)
Если расчетное значение t-критерия с (n - 2) степенями свободы превосходит его табличное значение при заданном уровне значимости, коэффициент регрессии считается значимым. В противном случае фактор, соответствующий этому коэффициенту, следует исключить из модели (при этом ее качество не ухудшится).
Интервальная оценка параметров модели
Для значимого уравнения регрессии представляет интерес построение интервальных оценок для параметра :
(3.19)
свободного члена :
где tтабл определяется по таблице распределения Стьюдента для уровня значимости и числа степеней свободы k = n - 2;
, – стандартные отклонения, соответственно, свободного члена и коэффициента модели (3.6);
n – число наблюдений.
Прогнозирование с применением уравнения регрессии
Регрессионные модели могут быть использованы для прогнозирования возможных ожидаемых значений зависимой переменной.
Прогнозируемое значение переменной получается при подстановке в уравнение регрессии
(3.20)
ожидаемой величины фактора . Данный прогноз называется точечным. Значение независимой переменной не должно значительно отличаться от входящих в исследуемую выборку, по которой вычислено уравнение регрессии.
Вероятность реализации точечного прогноза теоретически равна нулю. Поэтому рассчитывается средняя ошибка прогноза или доверительный интервал прогноза с достаточно большой надежностью.
доверительные интервалы, зависят от стандартной ошибки (3.16), удаления от своего среднего значения , количества наблюдений n и уровня значимости прогноза α. В частности, для прогноза (3.20) будущие значения с вероятностью (1 - α) попадут в интервал
.
Пример 2.
Используя данные примера 3.1, оценить накопления семьи, имеющей доход 42 тыс. $ и отобразить на графике исходные данные, результаты моделирования и прогнозирования.
Решение
В примере1. была построена модель зависимости накопления от дохода:
.
Для того, чтобы определить накопления семьи при доходе 42 тыс.$ необходимо подставить значение хпрогн в полученную модель.
yпрогноз = - 2.184+0.143*42= 3.827
Величину отклонения от линии регрессии вычисляют по формуле , используя данные таблицы 3.4. Величину находят по формуле (3.16):
= = 0.9112
Табл. 3.4.
Наблюдение |
Накопления |
Предсказанное Y |
Остатки |
2 |
|
Y |
|
|
|
1 |
3 |
3.541 |
-0.5406 |
0.2923 |
2 |
6 |
5.688 |
0.3125 |
0.0977 |
3 |
5 |
4.256 |
0.7438 |
0.5532 |
4 |
3.5 |
2.109 |
1.3906 |
1.9338 |
5 |
1.5 |
2.109 |
-0.6094 |
0.3713 |
6 |
4.5 |
4.972 |
-0.4719 |
0.2227 |
7 |
2 |
2.825 |
-0.8250 |
0.6806 |
Сумма |
25.5 |
25.500 |
0.0000 |
4.1516 |
Коэффициент Стьюдента для m=5 степеней свободы (m=n-2) и уровня значимости 0.1 равен 2.015. Тогда
U(x=42,n=7,=0.1) = =
= = =1.965
Таким образом, прогнозное значение =3.827 будет находиться между верхней границей, равной 3.827+1.965=5.792 и нижней границей, равной 3.827-1.965=1.862.
График исходных данных и результаты моделирования приведены на рисунке 3.5
Рисунок 3.5. График модели парной регрессии зависимости накопления от дохода.
Применение инструмента Регрессия (Анализ данных в EXCEL).
Для проведения регрессионного анализа выполните следующие действия:
Выберите команду СервисАнализ данных.
В диалоговом окне Анализ данных выберите инструмент Регрессия, а затем щелкните на кнопке ОК
В диалоговом окне Регрессия в поле Входной интервал Y введите адрес одного диапазона ячеек, который представляет зависимую переменную. В поле Входной интервал Х введите адреса одного или нескольких диапазонов, которые содержат значения независимых переменных (Рисунок 4.1.).
Если выделены и заголовки столбцов, то установить флажок Метки в первой строке.
Выберите параметры вывода. В данном примере Новая рабочая книга
В поле Остатки поставьте необходимые флажки.
ОК.
Рисунок 4.1. Диалоговое окно Регрессия подготовлено к выполнению анализа данных.
Результат регрессионного анализа содержится в таблицах 4.4 –4.7. Рассмотрим содержание этих таблиц.
Таблица 4.4.
Регрессионная статистика |
|
Множественный R |
0.927 |
R-квадрат |
0.859 |
Нормированный R-квадрат |
0.837 |
Стандартная ошибка |
41.473 |
Наблюдения |
16.000 |
Таблица 4.5
Дисперсионный анализ |
|
|
|
|
|
df |
SS |
MS |
F |
Регрессия |
2 |
136358.334 |
68179.167 |
39.639 |
Остаток |
13 |
22360.104 |
1720.008 |
|
Итого |
15 |
158718.438 |
|
|
Таблица 4.6
|
Коэффициенты |
Стандартная ошибка |
t-статистика |
Y-пересечение |
-1471.314 |
259.766 |
-5.664 |
Реклама |
9.568 |
2.266 |
4.223 |
Индекс потребительских расходов |
15.753 |
2.467 |
6.386 |
Таблица 4.7
ВЫВОД ОСТАТКА |
|
|
|
|
|
Наблюдение |
Предсказанное |
Остатки |
1 |
142,25 |
-16,25 |
2 |
124,70 |
12,30 |
3 |
159,24 |
-11,24 |
4 |
242,35 |
-51,35 |
5 |
247,02 |
26,98 |
6 |
307,06 |
62,94 |
7 |
361,20 |
70,80 |
8 |
416,80 |
28,20 |
9 |
424,18 |
-57,18 |
10 |
350,32 |
16,68 |
11 |
345,37 |
-24,37 |
12 |
334,72 |
-27,72 |
13 |
386,79 |
-55,79 |
14 |
352,05 |
-7,05 |
15 |
353,23 |
10,77 |
16 |
361,73 |
22,27 |
Пояснения к таблице 4.4.
Регрессионная статистика |
|||
№ |
Наименование в отчете EXCEL |
Принятые наименования |
Формула |
1 |
Множественный R |
Коэффициент множественной корреляции, индекс корреляции |
|
2 |
R-квадрат |
Коэффициент детерминации, R2 |
|
3 |
Нормированный R-квадрат |
Скорректированный R2 |
|
4 |
Стандартная ошибка |
Стандартная ошибка оценки |
|
5 |
Наблюдения |
Количество наблюдений, n |
n |
Пояснения к таблице 4.5.
|
Df – число степеней свободы |
SS – сумма квадратов |
MS |
F – критерий Фишера |
Регрессия |
k =2 |
|
/k |
|
Остаток |
n-k-1 = 13 |
|
|
|
Итого |
n-1 = 15 |
|
|
|
Пояснения к таблице 4.6.
Во втором столбце таблицы 4.6. содержатся коэффициенты уравнения регрессии a0, a1, a2. В третьем столбце содержатся стандартные ошибки коэффициентов уравнения регрессии, а в четвертом - t-статистика, используемая для проверки значимости коэффициентов уравнения регрессии.
Уравнение регрессии зависимости объема реализации от затрат на рекламу и индекса потребительских расходов можно записать в следующем виде:
y = -1471.314 + 9.568х1 + 15.754х2
3.Оценка качества всего уравнения регрессии
В таблице 4.7 приведены вычисленные (предсказанные) по модели значения зависимой переменной Y и значения остаточной компоненты .
Значение коэффициентов детерминации и множественной корреляции можно найти в таблице Регрессионная статистика.