Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Николаевский национальный аграрный университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Модуль7

.doc

Скачиваний:

Добавлен:

27.03.2016

Размер:

100.86 Кб

Скачать

☆

Модуль 7. Прогнозирование

Прогнозирование в регрессионном анализе – одна из важнейших задач моделирования. Прогнозирование может использоваться для предсказания состояния системы в будущем (экстраполяция) или для оценки значения зависимой переменной от некоторого набора независимых, которых нет в исходных наблюдениях (интерполяция). Различают точечное и интервальное прогнозирование. При точечном прогнозе оценкой зависимой переменной будет число, при интервальном – оценкой будет интервал, в котором истинное значение зависимой переменной находится с заданным уровнем вероятности. Для прогноза существенно, являются ли объясняющие переменные и параметры точными значениями или приближенными, имеется ли автокорреляция.

7.1. Прогнозирование в линейной классической модели

Рассмотрим классическую регрессионную модель Y=X + , M[]=0, D[]=²E_n. Здесь Y=(y₁,y₂, … , y_n) – значения объясняемой переменной в n наблюдениях.

- матрица значений m объясняющих переменных в n наблюдениях.

Предположим, что точке X_n₊₁=(x_n₊₁⁽¹⁾, x_n₊₁⁽²⁾, … x_n₊₁⁽^m⁾) соответствует истинное значение Y_n₊₁=X_n₊₁^T + _n₊₁, тогда как пользуясь регрессионной моделью, мы можем получить лишь точечный прогноз _n₊₁=X_n₊₁^T.

Пусть =(₀, ₁, … ,_m) – вектор параметров модели, значения которых точно известны, а =(₁, ₂, …, _n) – отклонения в модели регрессии с точно известным значением дисперсии ². В этом случае

M[Y_n₊₁] = M[X_n₊₁^T] + M[_n₊₁]= M[X_n₊₁^T] = M[_n₊₁], мы видим что точечный прогноз _n₊₁является несмещенной оценкой Y_n₊₁. Необходимо оценить ошибку прогноза или отклонение прогнозного значения от истинного:

D[_n₊₁] = М[(_n₊₁-Y_n₊₁)²]=D[_n+1]= ².

7.1.1. Понятие об интервальном оценивании и доверительных областях

Вычисляя на основании выборочных данных оценку _n₊₁=X_n₊₁^T мы отдаем себе отчет в том, что на самом деле величина _n₊₁ является лишь приближенным значением неизвестной величины Y_n₊₁. Возникает вопрос: как сильно может отклоняться это приближенное значение от истинного? В частности, нельзя ли указать такую величину , которая с заранее заданной вероятностью, близкой к единице, гарантировала бы выполнение неравенства | _n₊₁ - Y_n₊₁| <? Или, что то же, нельзя ли указать интервал вида (_n_+1,1 , _n_+1,2), который с заранее заданной вероятностью (близкой к единице) накрывал бы неизвестное нам истинное значение Y_n₊₁? При этом заранее выбираемая исследователем вероятность обычно называется доверительной вероятностью, а сам интервал (_n_+1,1 , _n_+1,2) – доверительным интервалом или интервальной оценкой. Ширина доверительного интервала существенно зависит от объема выборки n (уменьшается с ростом n) и от величины доверительной вероятности (увеличивается с приближением доверительной вероятности к единице).

Пусть случайная величина Z подчинена стандартному нормальному закону распределения ZN(0,1), тогда можно записать Prob(|Z|<t__/₂)= 1-. Здесь 1- – доверительная вероятность, а t__/₂ – критическое значение ( - квантиль), соответствующий . Эта запись эквивалентна интервальной оценке Z (-t__/₂, +t__/₂) с доверительной вероятностью 1-.

Если случайная величина X подчинена нормальному закону распределения XN(,), тогда можно записать Prob(|(X- ) / |<t__/₂)= 1- (см. 2.6.3), а следовательно, интервальная оценка для примет вид: X(-t__/₂, +t__/₂).

7.1.2 Интервальная оценка в прогнозировании

Если ошибка нормально распределена, то интервальная оценка

Y_n₊₁ (_n₊₁-t_; _n₊₁+t_), где t_- двусторонняя  - квантиль стандартного нормального распределения. С вероятностью 1- истинное значение Y_n₊₁ окажется в данном интервале.

Пусть вектор параметров модели =(₀, ₁, … ,_m) и отклонения =(₁, ₂, …, _n) – неизвестны, а есть только оценки а=(а₀, а₁, … ,а_m) и s_e² – оценки, полученные методом наименьших квадратов (см.4.1.2, ): и .

В этом случае как и в предыдущем точечный прогноз Ŷ_n₊₁=X_n₊₁^Tа является несмещенной оценкой истинного значения Y_n₊₁. Действительно M[a]=, тогда

M[_n₊₁] = M[X_n₊₁^Tа] = X_n₊₁^T M[а] = M[X_n₊₁^T.] + M[_n₊₁]= M[Y_n₊₁].

Важно, что полученная оценка является эффективной, то есть обладает наименьшей дисперсией.

7.1.3. Дополнительно

Утверждение: Предположим, что - некая несмещенная оценка величины Y_n₊₁. Тогда необходимо доказать, что .

Доказательство: . Здесь мы использовали тождество в силу несмещенности новой оценки. Рассмотрим дисперсию этой оценки:

Покажем, что . Раскроем скобки и воспользуемся тем, что и _n₊₁=X_n₊₁^Tа, а Y_n₊₁=X_n₊₁^T + _n₊₁

Рассмотрим первое слагаемое

так как Y_n₊₁=X_n₊₁^T + _n₊₁, то . Окончательно для первого слагаемого получаем:

Рассмотрим второе слагаемое

Третье слагаемое

Четвертое слагаемое

Таким образом, утверждение доказано.

Найдем дисперсию _n₊₁:

Заменим ² на s_e², и введем обозначение . Если ошибки (,_n₊₁) имеют совместное нормальное распределение, то случайная величина (_n₊₁ - Y_n₊₁)/ имеет распределение Стьюдента с n-m-1 степенями свободы. Поэтому доверительным интервалом для Y_n₊₁с уровнем значимости  будет интервал (_n₊₁ – t_ , _n₊₁ + t_), где где t_- двусторонняя  - квантиль распределения Стьюдента с n-m-1 степенями свободы.

7.2. Прогнозирование при наличии авторегрессии ошибок

Рассмотрим задачу прогнозирования, когда ошибки в исходной модели коррелированы по времени, а именно, образуют авторегрессионный процесс первого порядка. В этом случае связь ошибки в моменты времени i и i-1 выглядит следующим образом:

Здесь _i, i= 1, … , n - последовательность независимых нормально распределенных случайных величин с нулевым средним и постоянной дисперсией _², а ||<1 – коэффициент авторегрессии.

Предположим, что параметры  и  известны.

Истинное значение

Y_n₊₁=X_n₊₁^T + _n₊₁= X_n₊₁^T + _n+  _n₊₁ = X_n₊₁^T + (Y_n-X_n^T )+  _n₊₁

В качестве оценки Y_n₊₁возьмем не _n₊₁=X_n₊₁^T как раньше, а

_n₊₁=X_n₊₁^T+ _n= X_n₊₁^T + (Y_n-X_n^T ).

Очевидно е = Y_n₊₁ - _n₊₁= _n₊₁, следовательно M[e]=0, D[e]= _²

Сравним дисперсии ошибок для обычной оценки _n₊₁=X_n₊₁^T: D[_n₊₁]= _² , и для оценки _n₊₁=X_n₊₁^T+ _n: D[e]= _².

_² = D[_n₊₁]= D[_n +  _n+₁]=M[(_n +  _n+₁)²] =

= M[(_n)²] + M[ _n+₁²] + 2M[_n  _n+₁] =²_²+_²> _²

Последнее слагаемое равно нулю в силу независимости _n и  _n₊₁. Таким образом, удается уменьшить ошибку прогноза по сравнению со случаем некоррелированных ошибок _² =_²/( 1- ²).

Реально значения  и  неизвестны, поэтому при прогнозировании величины Y_n₊₁ их заменяют оценками a и r:

_n₊₁= = X_n₊₁^Ta+ r(Y_n-X_n^T a).

7. Вопросы

Какие виды прогноза вы знаете?
В чем отличие точной и интервальной оценки?
Какими характеристиками случайной величины определяется интервальная оценка?
В каких моделях подстановка значения х в уравнение регрессии дает смещенную оценку прогнозного значения у?
Что такое доверительный интервал?

Соседние файлы в папке econometrika

#
27.03.2016135.68 Кб44Модуль 5.doc
#
27.03.2016148.48 Кб30Модуль 9.doc
#
27.03.2016223.23 Кб37Модуль2_1.doc
#
27.03.2016311.3 Кб90Модуль2_2.doc
#
27.03.2016153.6 Кб32Модуль6.doc
#
27.03.2016100.86 Кб30Модуль7 .doc
#
27.03.2016374.78 Кб78Модуль8.doc
#
27.03.2016229.89 Кб33Тесты без ответов.doc