Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Ведение в социально - экономическую статистику. Учебник. Новосибирск, 2004. 739 с

.pdf
Скачиваний:
43
Добавлен:
22.08.2013
Размер:
4.02 Mб
Скачать

11.5. Прогнозы по регрессии с детерминированными факторами

363

дисперсии — стандартная ошибка прогноза. В предположении отсутствия автокорреляции ошибок εt дисперсия ошибки прогноза, подобно самой ошибке прогноза, является суммой двух дисперсий: дисперсии εT +k и дисперсии zT +k (α − a), а именно:

σd2 = var(d) = var(εT +k ) + var (zT +k (α − a)) .

Найдем эту дисперсию, исходя из того, что ошибки гомоскедастичны:

σd2 = σ2 + zT +kvar(α − a)zT +k = σ2 + zT +kvar(a)zT +k .

Как известно, при отсутствии автокорреляции и гетероскедастичности, оценки МНК имеют дисперсию

var(a) = σ2 Z Z 1 .

Поэтому

σd2 = σ2 1 + zT +k Z Z 1 zT +k .

Для того чтобы построить доверительный интервал прогноза, следует предположить нормальность ошибок. Более конкретно, предполагаем, что ошибки регрессии, включая ошибку наблюдения, для которого делается прогноз, имеют многомерное нормальное распределение с нулевым математическим ожиданием и ковариационной матрицей σ2I . При таком предположении ошибка прогноза имеет нормальное распределение с нулевым математическим ожиданием и дисперсией σd2 :

d N (0, σd2 ).

Приводя к стандартному нормальному распределению, получим

d N (0, 1). σd

Однако, эта формула еще не дает возможности построить доверительный интервал, поскольку истинная дисперсия прогноза σd2 неизвестна. Вместо нее следует использовать оценку

s2d = sˆ2e 1 + zT +k Z Z 1 zT +k ,

где sˆ2e — несмещенная оценка дисперсии ошибок регрессии, или остаточная дисперсия.

364 Глава 11. Основные понятия в анализе временных рядов

Оказывается, что получающаяся величина d sd имеет распределение Стьюдента с (T −p−1) степенями свободы (см. Приложение A.3.2), где p — количество факторов в регрессии (без учета константы): d sd tT −p−1.

Построим на основе этого вокруг прогноза xT (k) доверительный интервал для xT +k , учитывая, что d = xT +k − xT (k):

xT (k) sdtT −p−1,1−q; xT (k) + sdtT −p−1,1−q ,

где tT −p−1,1−q — (1 q)-квантиль t-распределения Стьюдента с (T − p − 1) степенями свободы.

Рассмотрим прогнозирование на примере линейного тренда. В этом случае zT +k = (1, T + k) ,

С учетом того, что

 

 

 

 

 

Z

=

1

 

1

 

 

· · ·

1

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

2

 

 

· · ·

T

 

 

 

 

 

 

 

 

 

 

 

 

 

произведение Z Z имеет вид:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Z Z =

 

 

T

 

 

t=1 t

 

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T

t

 

T

 

 

 

t2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t=1

 

t=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

T

 

 

 

 

 

 

 

T

 

 

 

 

(Z Z)1 =

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t=1 t2

 

 

 

t=1 t

,

 

 

 

 

 

T

2

 

 

T

 

 

 

2

 

 

 

T

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T

t=1 t

 

 

 

t=1 t

 

 

t=1 t

 

 

 

 

T

 

 

 

 

 

 

 

 

 

T

 

 

 

 

 

 

 

 

 

 

T

 

 

 

 

 

 

 

 

 

 

 

 

 

 

zT +k (Z

Z)1 z

=

t=1 t2 2(T + k)

t=1 t + T (T + k)2

=

 

 

 

 

 

T +k

 

 

 

 

 

 

T

 

 

 

 

 

 

T

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T

 

t=1 t2

 

t=1 t

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

¯

 

¯2

+

T

t2

 

¯2

 

 

 

 

 

 

 

=

T (T + k)

2(T + k)t + t

t=1 T

 

− t

 

=

 

 

 

 

 

 

 

 

 

 

T

 

 

T

 

¯

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

¯

 

t=1(t

− t)

 

¯2

 

 

 

 

 

 

 

¯ 2

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

T

 

2

 

 

 

 

 

 

 

 

1

 

 

 

=

T ((T + k) − t)

 

+

 

 

 

t=1 t

 

− T t

 

 

=

 

((T + k) − t)

+

.

 

 

 

 

 

 

 

 

 

¯

 

 

 

 

 

 

 

 

T

T

 

 

¯

2

 

 

T

 

T

 

 

2

 

 

 

 

T

¯ 2

 

T

 

 

 

 

t=1(t − t)

 

 

 

 

 

t=1(t − t)

 

 

 

 

 

 

t=1(t

− t)

 

 

 

Тогда:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

¯ 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

σ2

= σ2

1 +

+

((T + k) − t)

.

 

 

 

 

 

 

 

 

 

 

 

 

 

T

 

 

 

 

 

 

 

 

 

 

 

 

 

d

 

 

 

 

 

 

 

 

 

T

 

 

¯ 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t=1(t

− t)

 

 

 

 

 

 

 

 

 

 

 

 

11.6. Критерии, используемые в анализе временных рядов

365

Соответственно,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

¯ 2

 

 

 

sd = sˆe

1 +

+

((T + k) − t)

.

 

T

 

 

 

 

 

T

¯ 2

 

 

 

 

 

 

 

t=1(t − t)

 

Из этой формулы видно, что чем больше горизонт прогноза k, тем больше дисперсия прогноза и шире прогнозный интервал.

11.6.Критерии, используемые в анализе временных рядов

В анализе временных рядов наиболее разработанными критериями являются критерии случайности, которые призваны определить, является ли ряд чисто случайным, либо в его поведении проявляются определенные закономерности, которые позволяют делать предсказания. «Чисто случайный ряд» — это в данном случае неформальный термин, подчеркивающий отсутствие закономерностей. Здесь может, например, подразумеваться ряд, состоящий из независимых и одинаково распределенных наблюдений (что соответствует понятию выборки в обычной статистике), либо белый шум, в том смысле, который указан ранее.

Среди экономических временных рядов редко встречаются такие, которые подходят под это описание3. Типичный экономический ряд характеризуется сильной положительной корреляцией. Очень часто экономические ряды содержат тенденцию, сезонность и т.д. В связи с этим применение критериев случайности по прямому назначению не имеет особого смысла. Тем не менее, критерии случайности играют очень важную роль в анализе временных рядов, и существуют различные способы их использования:

1) Критерий может быть чувствительным к определенным отклонениям от «случайности». Тогда большое значение соответствующей статистики может указывать на наличие именно такого отклонения. Таким образом, статистика критерия может использоваться просто как описательная статистика. При этом формальная проверка гипотезы не производится.

Так, например, автокорреляционная функция, о которой речь пойдет ниже, очень чувствительна к наличию периодичностей и трендов. Кроме того, по автокорреляционной функции можно определить, насколько быстро затухает временна´ я зависимость в рядах4.

3Близки к этому, видимо, только темпы прироста курсов ценных бумаг.

4При интерпретации автокорреляционной функции возникают сложности, связанные с тем, что соседние значения автокорреляций коррелированы между собой.

366

Глава 11. Основные понятия в анализе временных рядов

2) Критерий можно применять к остаткам от модели, а не к самому исходному ряду. Пусть, например, была оценена модель вида «тренд плюс шум». После вычитания из ряда выявленного тренда получаются остатки, которые можно рассматривать как оценки случайной компоненты. Наличие в остатках каких-либо закономерностей свидетельствует о том, что модель неполна, либо в принципе некорректна. Поэтому критерии случайности можно использовать в качестве диагностических критериев при моделировании.

Следует помнить, однако, что распределение статистики, рассчитанной по остаткам, и распределение статистики, рассчитанной по исходному случайному шуму, вообще говоря, не совпадают. В некоторых случаях при большом количестве наблюдений это различие несущественно, но часто в результате критерий становится несостоятельным и критические значения в исходном виде применять нельзя5.

Существует большое количество различных критериев случайности. По-види- мому, наиболее популярными являются критерии, основанные на автокорреляционной функции.

11.6.1.Критерии, основанные на автокорреляционной функции

Для того чтобы сконструировать критерии, следует рассмотреть, какими статистическими свойствами характеризуется автокорреляционная функция стационарного процесса.

Известно, что выборочные автокорреляции имеют нормальное асимптотическое распределение. При большом количестве наблюдений математическое ожидание rk приближенно равно ρk . Дисперсия автокорреляции приближенно равна

 

 

1

+

 

var(rk )

 

[ρi2 + ρi−k ρi+k 4ρk ρiρi+k + 2ρk2 ρi2].

(11.10)

T

 

 

 

 

i=−∞

 

Для ковариации двух коэффициентов автокорреляции верно приближение

 

cov(rk , rl)

 

(11.11)

1

+

 

 

 

 

[ρi+k ρi+l + ρi−k ρi+l 2ρk ρiρi+l 2ρl ρiρi+k + 2ρk ρlρi2]

T

 

 

 

i=−∞

 

 

Эти аппроксимации были выведены Бартлеттом.

5Так, Q-статистика, о которой идет речь ниже, в случае остатков модели ARMA(p, q) будет

распределена не как χ2

, а как

χ2

. Применение распределения χ2

приводит к тому, что

m

 

m−p−q

m

 

нулевая гипотеза о «случайности» принимается слишком часто.

11.6. Критерии, используемые в анализе временных рядов

367

В частности, для белого шума (учитывая, что

ρk = 0 при k = 0) получаем

согласно формуле (11.10)

 

1

 

 

var(rk )

 

.

(11.12)

T

Это только грубое приближение для дисперсии. Для гауссовского белого шума известна точная формула для дисперсии коэффициента автокорреляции:

var(rk ) =

T − k

.

(11.13)

 

T (T + 2)

 

Кроме того, из приближенной формулы (11.11) следует, что автокорреляции rk и rl , соответствующие разным порядкам ( k = l), некоррелированы.

Эти формулы позволяют проверять гипотезы относительно автокорреляционных коэффициентов. Так, в предположении, что ряд представляет собой белый шум, можно использовать следующий доверительный интервал для отдельного коэффициента автокорреляции:

r

k

T − k

εˆ

, r

 

+

T − k

εˆ

,

 

T (T + 2) 1−θ

 

k

 

T (T + 2) 1−θ

 

где εˆ1−θ — квантиль нормального распределения. При больших T и малых k оправдано использование более простой формулы

 

εˆ1−θ

, rk +

εˆ1−θ

 

rk

 

 

 

 

,

T

T

Вместо того чтобы проверять отсутствие автокорреляции для каждого отдельного коэффициента, имеет смысл использовать критерий случайности, основанный на нескольких ближних автокорреляциях. Рассмотрим m первых автокорреляций: r1, . . . , rm. В предположении, что ряд является белым шумом, при большом количестве наблюдений их совместное распределение приближенно равно N 0, T1 Im . На основе этого приближения Бокс и Пирс предложили следующую статистику, называемую Q-статистикой Бокса—Пирса:

 

m

Q (r) = T

r2.

 

k

 

k=1

Она имеет асимптотическое распределение χ2m.

При дальнейшем изучении выяснилось, что выборочные значения Q-статис- тики Бокса—Пирса могут сильно отклонятся от распределения χ2m. Для улучшения

368

Глава 11. Основные понятия в анализе временных рядов

аппроксимации Льюнг и Бокс предложили использовать точную формулу дисперсии (11.13) вместо (11.12). Полученная ими статистика, Q-статистика Льюнга— Бокса:

˜

m r2

 

 

k

 

Q (r) = T (T + 2)

k=1 T − k

,

тоже имеет асимптотическое распределение χ2m, однако при малом количестве наблюдений демонстрирует гораздо лучшее соответствие этому асимптотическому распределению, чем статистика Бокса—Пирса.

Было показано, что критерий не теряет своей состоятельности даже при невыполнении гипотезы о нормальности процесса. Требуется лишь, чтобы дисперсия была конечной.

Нулевая гипотеза в Q-критерии заключается в том, что ряд представляет собой белый шум, то есть является чисто случайным процессом. Используется стандартная процедура проверки: если расчетное значение Q-статистики больше заданного квантиля распределения χ2m, то нулевая гипотеза отвергается и признается наличие автокорреляции до m-го порядка в исследуемом ряду.

Кроме критериев случайности можно строить и другие критерии на основе автокорреляций. Пусть, например, ρi = 0 при i k, т.е. процесс автокоррелирован, но автокорреляция пропадает после порядка k 6. Тогда по формуле 11.10 получаем

k−1

var(rk ) 1 + 2 ρ2i .

i=1

Если в этой формуле заменить теоретические автокорреляции выборочными, то получим следующее приближение:

k−1

var(rk ) 1 + 2 ri2.

i=1

На основе этого приближения (приближения Бартлетта) с учетом асимптотической нормальности можно стандартным образом построить доверительный интервал для rk :

rk − εˆ1−θ var(rk ), rk + εˆ1−θ var(rk ) .

6Это предположение выполнено для процессов скользящего среднего MA(q) при q < k (см. п. 14.4).

11.6. Критерии, используемые в анализе временных рядов

369

0.8

 

 

 

 

 

 

 

 

 

0.6

 

 

 

 

 

 

Автокорреляции

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0.4

 

 

 

 

 

 

95%-е доверительные

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

интервалы

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0.2

 

 

 

 

0.0

 

 

 

 

-0.2

 

 

 

 

0

10

20

30

40

Рис. 11.2. Коррелограмма с доверительными интервалами, основанными на формуле Бартлетта.

На рисунке 11.2 представлена коррелограмма некоторого ряда с доверительными интервалами, основанными на формуле Бартлетта7. Для удобства доверительные интервалы построены вокруг нуля, а не вокруг rk .

11.6.2. Критерий Спирмена

Критерий Спирмена принадлежит к числу непараметрических8 критериев проверки случайности временного ряда и связан с использованием коэффициента ранговой корреляции Спирмена. Он позволяет уловить наличие или отсутствие тренда в последовательности наблюдений за исследуемой переменной.

Идея критерия состоит в следующем. Допустим, что имеется временной ряд, представленный в хронологической последовательности. Если ряд случайный, то распределение отдельного наблюдения не зависит от того, в каком месте ряда стоит это наблюдение, какой номер оно имеет. При расчете критерия Спирмена

всоответствие исходному ряду ставится проранжированный ряд, т.е. полученный

врезультате сортировки изучаемой переменной по возрастанию или по убыванию.

Новый порядок, или ранг θt, сравнивается с исходным номером t, соответству-

7При использовании нескольких доверительных интервалов следует отдавать себе отчет, что они не являются совместными. В связи с этим при одновременном использовании интервалов вероятность ошибки первого рода будет выше θ

8В отличие от параметрических, непараметрические критерии не имеют в своей основе априорных предположений о законах распределения временного ряда.

370

Глава 11. Основные понятия в анализе временных рядов

ющим хронологической последовательности. Эти порядки будут независимы для чисто случайного процесса и коррелированы при наличии тенденции.

В крайнем случае, если ряд всегда возрастает, то полученная ранжировка совпадает с исходным порядком наблюдений, т.е. t = θt для всех наблюдений t = 1, . . . , T . В общем случае тесноту связи между двумя последовательностями 1, . . . , T и θ1, . . . , θT можно измерить с помощью обычного коэффициента корреляции:

 

 

T

 

 

 

 

 

η =

 

t=1 xˆtyˆt

 

,

(11.14)

 

 

 

 

 

 

 

 

 

 

 

 

T

xˆ2

T

yˆ2

 

 

 

t=1

t

t=1

t

 

заменяя xt на t и yt на θt. Такой показатель корреляции между рангами наблюдений (когда xt и yt представляют собой перестановки первых T натуральных чисел) в статистике называется коэффициентом ранговой корреляции Спирмена:

6

T

 

 

 

η = 1 T (T 2 1) t=1(θt − t)2.

(11.15)

Для чисто случайных процессов η имеет нулевое математическое ожидание

1

. В больших выборках величина η приближенно имеет

и дисперсию, равную

 

T − 1

 

1

). Для малых выборок предпочтительнее

нормальное распределение

N (0,

 

T − 1

использовать в качестве статистики величину η

T − 2

, которая приближенно

 

 

 

 

 

1 − η2

имеет распределение Стьюдента с T − 2 степенями свободы. Если искомая расчетная величина по модулю меньше двусторонней критической границы распределения Стьюдента, то нулевая гипотеза о том, что процесс является случайным, принимается и утверждается, что тенденция отсутствует. И наоборот, если искомая величина по модулю превосходит табличное значение, т.е. значение коэффициента η существенно отлично от нуля, то нулевая гипотеза о случайности ряда отвергается. Как правило, это можно интерпретировать как наличие тенденции.

11.6.3. Сравнение средних

Кроме критериев случайности можно использовать различные способы проверки неизменности во времени моментов первого и второго порядков. Из всего многообразия подобных критериев рассмотрим лишь некоторые.

В статистике существует ряд критериев, оценивающих неоднородность выборки путем ранжирования наблюдений с последующим разбиением их на группы

11.6. Критерии, используемые в анализе временных рядов

371

и сравнением межгрупповых показателей. Эти критерии применимы и к временным рядам. При анализе временных рядов нет необходимости в ранжировании наблюдений и поиске адекватного способа сортировки — их порядок автоматически закреплен на временном интервале. Например, можно проверять, является ли математическое ожидание («среднее») постоянным или же в начале ряда оно иное, чем в конце.

Разобьем ряд длиной T на две части примерно равной длины: x1, . . . , xT1 и xT1+1, . . . , xT . Пусть x¯1 — среднее, s21 — выборочная дисперсия (несмещенная оценка), T1 — количество наблюдений по первой части ряда, а x¯2 , s22 и T2 = = T − T1 — те же величины по второй части.

Статистика Стьюдента для проверки равенства средних в двух частях ряда

равна9

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t = (¯x

1

x¯

2

)

 

T1 + T2 2

 

.

(11.16)

 

(1/T1 + 1/T2 ) (T1 1)s12

+ (T2 1)s22

 

 

 

 

 

 

В предположении, что ряд является гауссовским белым шумом, данная статистика имеет распределение Стьюдента с T1 + T2 2 степенями свободы. Если статистика t по модулю превосходит заданный двусторонний квантиль распределения Стьюдента, то нулевая гипотеза отвергается.

Данный критерий имеет хорошую мощность в случае, если альтернативой является ряд со структурным сдвигом. С помощью данной статистики также можно обнаружить наличие тенденции в изучаемом ряде. Для того чтобы увеличить мощность критерия в этом случае, можно среднюю часть ряда (например, треть наблюдений) не учитывать. При этом T1 + T2 < T .

Рассчитать статистику при T1 + T2 = T можно с помощью вспомогательной регрессии следующего вида:

xt = αzt + β + ε,

где zt — фиктивная переменная, принимающая значение 0 в первой части ряда и 1 во второй части ряда. Статистика Стьюдента для переменной zt совпадает со статистикой (11.16).

Критерий сравнения средних применим и в случае, когда ряд xt не является гауссовским, а имеет какое-либо другое распределение. Однако его использование в случае автокоррелированного нестационарного ряда для проверки неизменности среднего неправомерно, поскольку критерий чувствителен не только

9Формула (11.16) намеренно записана без учета того, что T1 + T2 = T , чтобы она охватывала

ивариант использования с T1 + T2 < T , о котором речь идет ниже.

372

Глава 11. Основные понятия в анализе временных рядов

к структурным сдвигам, но и к автокоррелированности ряда. Поэтому в исходном виде критерий сравнения средних следует считать одним из критериев случайности.

В какой-то степени проблему автокорреляции (а одновременно и гетероскедастичности) можно решить за счет использования устойчивой к автокорреляции

игетероскедастичности оценки Ньюи—Уэста (см. п. 8.3). При использовании этой модификации критерий сравнения средних перестает быть критерием случайности

иего можно использовать как критерий стационарности ряда.

Легко распространить этот метод на случай, когда ряд разбивается более чем на две части. В этом случае во вспомогательной регрессии будет более одной фиктивной переменной и следует применять уже F -статистику, а не t-статистику. Так, разбиение на три части может помочь выявить U-образную динамику среднего (например, в первой и третьей части среднее велико, а во второй мало).

Ясно, что с помощью подобных регрессий можно также проверять отсутствие неслучайной зависящей от времени t компоненты другого вида. Например, переменная zt может иметь вид линейного тренда zt = t. Можно также дополнительно включить в регрессию t2 , t3 и т.д. и тем самым «уловить» нелинейную тенденцию. Однако в таком виде по указанным выше причинам следует проявлять осторожность при анализе сильно коррелированных рядов.

11.6.4. Постоянство дисперсии

Сравнение дисперсий

Так же как при сравнении средних, при сравнении дисперсий последовательность xt разбивается на две группы с числом наблюдений T1 и T2 = T − T1 , для каждой из них вычисляется несмещенная дисперсия s2i и строится дисперсионное отношение:

s2

F = 2 . (11.17)

s21

Этот критерий представляет собой частный случай критерия Голдфельда— Квандта (см. п. 8.2).

Если дисперсии однородны и выполнено предположение о нормальности распределения исходного временного ряда (более точно — ряд представляет собой гауссовский белый шум), то F -статистика имеет распределение Фишера FT21, T11 (см. Приложение A.3.2).

Смысл данной статистики состоит в том, что, когда дисперсии сильно отличаются, статистика будет либо существенно больше единицы, либо существенно

Соседние файлы в предмете Политология