econometrika / econometrika / Модуль7
.doc
Модуль 7. Прогнозирование
Прогнозирование в регрессионном анализе – одна из важнейших задач моделирования. Прогнозирование может использоваться для предсказания состояния системы в будущем (экстраполяция) или для оценки значения зависимой переменной от некоторого набора независимых, которых нет в исходных наблюдениях (интерполяция). Различают точечное и интервальное прогнозирование. При точечном прогнозе оценкой зависимой переменной будет число, при интервальном – оценкой будет интервал, в котором истинное значение зависимой переменной находится с заданным уровнем вероятности. Для прогноза существенно, являются ли объясняющие переменные и параметры точными значениями или приближенными, имеется ли автокорреляция.
7.1. Прогнозирование в линейной классической модели
Рассмотрим классическую регрессионную модель Y=X + , M[]=0, D[]=2En. Здесь Y=(y1,y2, … , yn) – значения объясняемой переменной в n наблюдениях.
- матрица значений m объясняющих переменных в n наблюдениях.
Предположим, что точке Xn+1=(xn+1(1), xn+1(2), … xn+1(m)) соответствует истинное значение Yn+1=X n+1T + n+1, тогда как пользуясь регрессионной моделью, мы можем получить лишь точечный прогноз n+1=X n+1T.
Пусть =(0, 1, … ,m) – вектор параметров модели, значения которых точно известны, а =(1, 2, …, n) – отклонения в модели регрессии с точно известным значением дисперсии 2. В этом случае
M[Yn+1] = M[X n+1T] + M[ n+1]= M[X n+1T] = M[n+1], мы видим что точечный прогноз n+1 является несмещенной оценкой Yn+1. Необходимо оценить ошибку прогноза или отклонение прогнозного значения от истинного:
D[n+1] = М[(n+1 -Yn+1)2]=D[ n+1]= 2.
7.1.1. Понятие об интервальном оценивании и доверительных областях
Вычисляя на основании выборочных данных оценку n+1=X n+1T мы отдаем себе отчет в том, что на самом деле величина n+1 является лишь приближенным значением неизвестной величины Yn+1. Возникает вопрос: как сильно может отклоняться это приближенное значение от истинного? В частности, нельзя ли указать такую величину , которая с заранее заданной вероятностью, близкой к единице, гарантировала бы выполнение неравенства | n+1 - Yn+1| <? Или, что то же, нельзя ли указать интервал вида (n+1,1 , n+1,2), который с заранее заданной вероятностью (близкой к единице) накрывал бы неизвестное нам истинное значение Yn+1? При этом заранее выбираемая исследователем вероятность обычно называется доверительной вероятностью, а сам интервал (n+1,1 , n+1,2) – доверительным интервалом или интервальной оценкой. Ширина доверительного интервала существенно зависит от объема выборки n (уменьшается с ростом n) и от величины доверительной вероятности (увеличивается с приближением доверительной вероятности к единице).
Пусть случайная величина Z подчинена стандартному нормальному закону распределения ZN(0,1), тогда можно записать Prob(|Z|<t/2)= 1-. Здесь 1- – доверительная вероятность, а t/2 – критическое значение ( - квантиль), соответствующий . Эта запись эквивалентна интервальной оценке Z (-t/2 , +t/2) с доверительной вероятностью 1-.
Если случайная величина X подчинена нормальному закону распределения XN(,), тогда можно записать Prob(|(X- ) / |<t/2)= 1- (см. 2.6.3), а следовательно, интервальная оценка для примет вид: X(-t/2 , +t/2).
7.1.2 Интервальная оценка в прогнозировании
Если ошибка нормально распределена, то интервальная оценка
Yn+1 (n+1 -t; n+1+ t), где t - двусторонняя - квантиль стандартного нормального распределения. С вероятностью 1- истинное значение Yn+1 окажется в данном интервале.
Пусть вектор параметров модели =(0, 1, … ,m) и отклонения =(1, 2, …, n) – неизвестны, а есть только оценки а=(а0, а1, … ,аm) и se2 – оценки, полученные методом наименьших квадратов (см.4.1.2, ): и .
В этом случае как и в предыдущем точечный прогноз Ŷn+1=X n+1Tа является несмещенной оценкой истинного значения Yn+1. Действительно M[a]=, тогда
M[n+1] = M[X n+1Tа] = X n+1T M[а] = M[X n+1T.] + M[ n+1]= M[Yn+1].
Важно, что полученная оценка является эффективной, то есть обладает наименьшей дисперсией.
7.1.3. Дополнительно
Утверждение: Предположим, что - некая несмещенная оценка величины Yn+1. Тогда необходимо доказать, что .
Доказательство: . Здесь мы использовали тождество в силу несмещенности новой оценки. Рассмотрим дисперсию этой оценки:
Покажем, что . Раскроем скобки и воспользуемся тем, что и n+1=X n+1Tа, а Yn+1=X n+1T + n+1
Рассмотрим первое слагаемое
так как Yn+1=X n+1T + n+1, то . Окончательно для первого слагаемого получаем:
Рассмотрим второе слагаемое
Третье слагаемое
Четвертое слагаемое
Таким образом, утверждение доказано.
Найдем дисперсию n+1:
Заменим 2 на se2 , и введем обозначение . Если ошибки (,n+1) имеют совместное нормальное распределение, то случайная величина (n+1 - Yn+1)/ имеет распределение Стьюдента с n-m-1 степенями свободы. Поэтому доверительным интервалом для Yn+1 с уровнем значимости будет интервал (n+1 – t , n+1 + t), где где t - двусторонняя - квантиль распределения Стьюдента с n-m-1 степенями свободы.
7.2. Прогнозирование при наличии авторегрессии ошибок
Рассмотрим задачу прогнозирования, когда ошибки в исходной модели коррелированы по времени, а именно, образуют авторегрессионный процесс первого порядка. В этом случае связь ошибки в моменты времени i и i-1 выглядит следующим образом:
Здесь i, i= 1, … , n - последовательность независимых нормально распределенных случайных величин с нулевым средним и постоянной дисперсией 2, а ||<1 – коэффициент авторегрессии.
Предположим, что параметры и известны.
Истинное значение
Yn+1=X n+1T + n+1= X n+1T + n+ n+1 = X n+1T + (Yn-XnT )+ n+1
В качестве оценки Yn+1 возьмем не n+1=X n+1T как раньше, а
n+1=X n+1T+ n= X n+1T + (Yn-XnT ).
Очевидно е = Yn+1 - n+1= n+1, следовательно M[e]=0, D[e]= 2
Сравним дисперсии ошибок для обычной оценки n+1=X n+1T: D[ n+1]= 2 , и для оценки n+1=X n+1T+ n: D[e]= 2.
2 = D[ n+1]= D[ n + n+1]=M[( n + n+1)2] =
= M[( n)2] + M[ n+12] + 2M[ n n+1] =2 2+2 > 2
Последнее слагаемое равно нулю в силу независимости n и n+1. Таким образом, удается уменьшить ошибку прогноза по сравнению со случаем некоррелированных ошибок 2 =2/( 1- 2).
Реально значения и неизвестны, поэтому при прогнозировании величины Yn+1 их заменяют оценками a и r:
n+1= = X n+1Ta+ r(Yn-XnT a).
7. Вопросы
-
Какие виды прогноза вы знаете?
-
В чем отличие точной и интервальной оценки?
-
Какими характеристиками случайной величины определяется интервальная оценка?
-
В каких моделях подстановка значения х в уравнение регрессии дает смещенную оценку прогнозного значения у?
-
Что такое доверительный интервал?