Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Ведение в социально - экономическую статистику. Учебник. Новосибирск, 2004. 739 с

.pdf
Скачиваний:
43
Добавлен:
22.08.2013
Размер:
4.02 Mб
Скачать

11.3. Основные описательные статистики для временных рядов

353

А для третьего порядка:

2ρ21 1 < ρ2 < 1.

Среди стационарных процессов в теории временных рядов особую роль играют процессы типа белый шум. Это неавтокоррелированные слабо стационарные процессы { εt } с нулевым математическим ожиданием и постоянной дисперсией:

µ = E(εt) = 0,

 

σ2

, k = 0

(11.1)

γk =

, k = 0

 

0

 

Следовательно, для белого шума ΓT = σ2IT , где IT — единичная матрица порядка T .

Название «белый шум» связано с тем, что спектральная плотность такого процесса постоянна, то есть он содержит в одинаковом количестве все частоты, подобно тому, как белый цвет содержит в себе все остальные цвета. Если белый шум имеет нормальное распределение, то его называют гауссовским белым шумом.

Аналогичные определения стационарности можно дать и для векторного стохастического процесса {xt}. Слабо стационарный векторный процесс будет характеризоваться уже не скалярными автоковариациями γk и автокорреляциями ρk , а аналогичными по смыслу матрицами. Вне главной диагонали таких матриц стоят, соответственно, кросс-ковариации и кросс-корреляции.

11.3.Основные описательные статистики для временных рядов

Предположим, у нас имеются некоторые данные в виде временного ряда {xt}t=1, ..., T . Среднее и дисперсия временного ряда рассчитываются по обычным формулам:

T T

x = t=1 xt и s2 = T1 t=1(xt x)2.

Выборочная автоковариация k-го порядка вычисляется как

1 T −k

ck = T t=1 (xt − x)(xt+k − x).

354

Глава 11. Основные понятия в анализе временных рядов

Если временной ряд слабо стационарен, то эти описательные статистики являются оценками соответствующих теоретических величин и при некоторых предположениях обладают свойством состоятельности.

Заметим, что в теории временных рядов при расчете дисперсии и ковариаций принято сумму квадратов и, соответственно, произведения делить на T . Вместо этого при расчете дисперсии, например, можно было бы делить на T −1, что дало бы несмещенную оценку, а при расчете ковариации k-го порядка — на T −k по числу слагаемых. Оправданием данной формулы может служить простота расчетов и то, что в таком виде это выражение гарантирует положительную полуопределенность матрицы выборочных автоковариаций CT :

 

c0

c1

· · ·

cT −1

CT =

c1

c0

· · ·

cT −2 .

 

.

.

..

 

.

 

.

.

.

.

 

.

.

 

.

 

cT −1

cT −2 · · ·

c0

Это отражает важное свойство соответствующей матрицы ΓT истинных автоковариаций.

Любую положительно определенную матрицу B можно представить в виде B = A A, где A — некоторая матрица (см., например, Приложения A.1.2 и A.1.2).

В нашем случае A = 1 X , поскольку матрица CT выражается в виде произве-

T

дения:

 

 

 

CT =

1

X X,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T

 

 

 

 

 

где X T -диагональная матрица, составленная из центрированных значений

ряда xt = xt

 

:

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x1

 

0

 

· · ·

0

 

 

 

 

x2

x1

· · ·

0

 

 

 

 

.

.

.

 

 

.

.

 

.

 

 

 

 

.

 

.

 

 

 

.

 

 

 

 

.

 

 

 

 

 

 

. .

 

 

 

X =

xT

xT −1

. ..

x1

.

 

 

 

 

 

 

 

 

 

 

0

xT

· · ·

x2

 

 

 

 

.

 

.

 

 

.

.

 

.

 

 

 

 

.

 

.

 

 

 

 

.

 

 

 

 

.

 

.

 

 

 

 

. .

 

 

 

 

0

 

0

 

· · ·

xT

 

11.3. Основные описательные статистики для временных рядов

355

Статистической оценкой автокорреляции k-го порядка для стационарных процессов является выборочный коэффициент автокорреляции: rk = ck c0 . При анализе изменения величин ck и rk в зависимости от значения k обычно пользуются выборочными автоковариационной и автокорреляционной функциями, определяемыми как последовательности {ck } и {rk }, соответственно. Выборочная автокорреляционная функция играет особую роль в анализе стационарных временных рядов, поскольку может быть использована в качестве инструмента для распознавания типа процесса. При этом обычно анализируют график автокорреляционной функции, называемый коррелограммой.

Заметим, что по ряду длиной T можно вычислить автокорреляции вплоть до rT −1 . Однако «дальние» автокорреляции вычисляются неточно. С ростом порядка k количество наблюдений, по которым вычисляется коэффициент автокорреляции rk , уменьшается. Для расчета rT −1 используется два наблюдения. Таким образом, с ростом k выборочные автокорреляции rk становятся все менее надежными оценками теоретических автокорреляций ρk . Таким образом, при анализе ряда следует принимать во внимание только самые «ближние» автокорреляции, например, первые [T /5] автокорреляций.

По аналогии с автоковариациями и автокорреляциями для анализа совместной динамики нескольких рядов можно использовать выборочные кросс-ковариации и кросс-корреляции.

Выборочная кросс-ковариация двух временных рядов, {xt} и {yt}, рассчитывается по формуле:

1 T −k

δk = T t=1 (xt+k − x)(yt − y).

Она характеризует взаимосвязи двух рядов во времени с различной величиной сдвига k. Следует помнить, что, в отличие от автоковариации, кросс-ковариация не является симметричной по k, поэтому ее следует рассматривать и при положительных, и при отрицательных k.

Выборочная кросс-корреляция определяется как:

 

T −k(x

t+k

 

)(y

t

 

)

 

 

 

x

y

 

t=1

 

 

 

 

 

.

 

 

 

 

 

T

 

 

 

 

T

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t=1(xt − x)2

 

t=1

(yt

− y)2

356

Глава 11. Основные понятия в анализе временных рядов

11.4.Использование линейной регрессии с детерминированными факторами для моделирования временного ряда

Сравнительно простой моделью временного ряда может служить модель вида:

xt = µt + εt, t = 1, . . . , T,

(11.2)

где µt — полностью детерминированная последовательность или систематическая составляющая, εt — последовательность случайных влеичин, являющаяся белым шумом. Если µt зависит от вектора неизвестных параметров θ: µt = µt(θ), то модель (11.2) является моделью регрессии, и ее параметры можно оценить с помощью МНК.

Детерминированная компонента µt, как правило, сама моделируется как состоящая из нескольких компонент. Например, можно рассмотреть аддитивную модель, в которой временной ряд содержит три компоненты: тренд τt, сезонные движения vt и случайные флуктуации εt:

xt = τt + vt + εt.

Зачастую изучаемый экономический ряд ведет себя так, что аддитивной схеме следует предпочесть мультипликативную схему:

xt = τtvt exp(εt).

Однако, если это выражение прологарифмировать, то получится аддитивный вариант:

ln(xt) = ln(τt) + ln(vt) + εt = τt + vt + εt,

что позволяет оставаться в рамках линейной регрессии и значительно упрощает моделирование.

11.4.1. Тренды

Существует три основных типа трендов.

Первым и самим очевидным типом тренда представляется тренд среднего, когда временной ряд выглядит как колебания около медленно возрастающей или убывающей величины.

Второй тип трендов — это тренд дисперсии. В этом случае во времени меняется амплитуда колебаний переменной. Иными словами, процесс гетероскедастичен.

11.4 Использование линейной регрессии

357

Часто экономические процессы с возрастающим средним имеют и возрастающую дисперсию.

Третий и более тонкий тип тренда, визуально не всегда наблюдаемый, — изменение величины корреляции между текущим и предшествующим значениями ряда, т.е. тренд автоковариации и автокорреляции.

Проводя разложение ряда на компоненты, мы, как правило, подразумеваем под трендом изменение среднего уровня переменной, то есть тренд среднего.

В рамках анализа тренда среднего выделяют следующие основные способы аппроксимации временных рядов и соответствующие основные виды трендов среднего.

Полиномиальный тренд:

τt = a0 + a1t + . . . + aptp.

Для p = 1 имеем линейный тренд.

Экспоненциальный тренд:

τt = ea0 +a1t+...+aptp .

Гармонический тренд:

τt = R cos(ωt + ϕ),

где R — амплитуда колебаний, ω — угловая частота, ϕ — фаза.

Тренд, выражаемый логистической функцией:

k

τt = 1 + be−at .

(11.3)

(11.4)

(11.5)

(11.6)

Оценивание параметров полиномиального и экспоненциального трендов (после введения обозначения zi = ti, i = 1, . . . , p, — в первом случае и логарифмирования функции во втором случае) производится с помощью обычного МНК.

Гармонический тренд оправдан, когда в составе временного ряда отчетливо прослеживаются периодические колебания. При этом если частота ω известна (или ее можно оценить), то функцию (11.5) несложно представить в виде линейной комбинации синуса и косинуса:

τt = α cos(ωt) + β sin(ωt)

и, рассчитав векторы cos(ωt) и sin(ωt), также воспользоваться МНК для оценивания параметров α и β.

Логистическая кривая нуждается в особом рассмотрении.

358

Глава 11. Основные понятия в анализе временных рядов

11.4.2. Оценка логистической функции

Проанализируем логистическую функцию:

τt =

k

,

(11.7)

1 + be−at

где a, b , k — параметры, подлежащие оцениванию. Функция ограничена и имеет горизонтальную асимптоту (рис. 11.1):

 

 

lim τt = k.

 

 

t→∞

 

 

В этом преимущество логистической функ-

τt

ции перед полиномиальной или экспонен-

 

 

циальной функциями, которые по мере ро-

k

ста t стремятся в бесконечность и, следо-

 

 

вательно, не всегда годятся для прогнози-

 

 

рования.

 

 

Логистическая кривая наиболее часто

 

 

используется при изучении социальных и,

 

 

в частности, демографических процессов.

 

 

Особенностью логистической кривой

t

 

 

является нелинейность по оцениваемым

Рис. 11.1. Логистическая кривая

параметрам a, b , k, поэтому система

 

 

уравнений, получаемая с помощью МНК,

нелинейна относительно неизвестных параметров и для ее решения могут применяться только итеративные численные методы.

Гарольд Готтелинг (H. Hotteling) предложил интересный метод для оценки этих параметров, основанный на использовании дифференциального уравнения логи-

стической функции. Дифференцирование функции τt

по времени t дает первую

производную:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t

=

 

kabe−at

.

 

 

 

 

 

 

 

 

 

dt

(1 + be−at)2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Поскольку

 

 

 

 

 

 

 

 

 

 

 

 

 

 

τ 2

 

 

k

 

 

 

и be−at

 

k

 

 

 

t

=

 

 

 

 

 

=

 

 

1,

 

k

 

at)2

τ

t

 

 

(1 + be

 

 

 

 

 

 

то, подставляя эти выражения в формулу первой производной, получаем дифференциальное уравнение, выражающее зависимость темпа прироста исследуемой

11.4 Использование линейной регрессии

359

переменной от абсолютного уровня показателя в момент времени t:

t/dt

= a −

a

τt.

(11.8)

τt

k

Исходя из этого соотношения, можно предположить, что в реальности абсолютный прирост показателя ∆xt связан с фактическим его уровнем xt следующей статистической зависимостью:

xt = axt +

a

xt2 + ηt,

k

где ηt — белый шум.

К этому уравнению теперь можно применить непосредственно метод наимень-

ших квадратов, получить оценки параметров

a и

a

и, следовательно, найти k.

 

k

Оценка параметра b методом моментов впервые предложена Родсом. Так как

be−at =

k

1, то ln b = at + ln

 

 

k

 

1

и с помощью метода моментов получаем:

τt

 

 

τt

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

T (T + 1)

 

T

 

 

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ln b =

 

a

·

 

 

 

 

 

 

 

+

ln

 

 

1 ,

 

 

 

 

T

 

 

 

2

 

 

 

τt

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t=1

 

 

 

 

 

 

 

или фактически после замены τt

 

на xt

имеем:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T

 

k

 

 

 

 

 

 

 

 

 

a(T + 1)

 

+

t=1 ln

 

 

1

.

 

 

 

 

ln b =

 

 

xt

(11.9)

 

 

 

 

 

T

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

Описанный выше метод Готтелинга имеет ограниченную сферу применения, его использование оправдано лишь в том случае, если наблюдения в исходном временном ряду представлены через равные промежутки времени (например, ежегодные или еженедельные данные).

11.4.3. Сезонные колебания

Для моделирования сезонной составляющей τt можно использовать формулу: vt = λ1δ1t + . . . + λhδht,

где δjt — сезонные фиктивные переменные, соответствующие h сезонам: δjt = 1, когда наблюдение относится к сезону j, и δjt = 0 в противном случае.

360

Глава 11. Основные понятия в анализе временных рядов

Использование в линейной регрессии полного набора таких переменных связано с одной особенностью. В сумме они дают единицу:

δ1t + . . . + δht = 1.

Поэтому, коль скоро в регрессии имеется константа, то будет иметь место линейная зависимость, и λ1, . . . , λh нельзя будет оценить однозначно. Таким образом, требуется наложить на коэффициенты λ1, . . . , λh какое-либо нормирующее ограничение. В частности, можно положить один из коэффициентов равным нулю, что эквивалентно неиспользованию соответствующей переменной при построении регрессии. Однако более удачная нормировка состоит в том, чтобы положить λ1 + . . . + λh = 0. При этом сезонная компонента центрируется, то есть в среднем влияние эффекта сезонности на уровень ряда оказывается равным нулю.

Подставим это ограничение в сезонную компоненту, исключив коэффициент λ1 :

vt = (λ2 + . . . + λh)δ1t + λ2δ2t + . . . + λhδht =

= λ2(δ2t − δ1t) + . . . + λh(δht − δ1t).

Новые переменные δ2t − δ1t, . . . , δht − δ1t будут уже линейно независимыми, и их можно использовать в линейной регрессии в качестве факторов, а также получить и оценку структуры сезонности λ1, . . . , λh. Трактовать ее следует так: в j-м сезоне сезонность приводит к отклонению от основной динамики ряда на величину λj .

Если для описания тренда взять полиномиальную функцию, то, используя аддитивную схему, можно представить временной ряд в виде следующей линейной регрессии:

xt = a0 + a1t + . . . + aptp + λ1δ1t + . . . + λhδht + εt,

где λ1 + . . . + λh = 0.

В этой регрессии ai и λj являются неизвестными коэффициентами. Применение МНК дает оценки p + h + 1 неизвестных коэффициентов и приводит к выделению составляющих τt, vt и εt .

11.4.4. Аномальные наблюдения

При моделировании временного ряда часто отбрасываются аномальные наблюдения, резко отклоняющиеся от направления эволюции ряда. Такого рода выбросы, вместо исключения, можно моделировать с помощью фиктивных переменных, соответствующих фиксированным моментам времени. Предположим,

11.5. Прогнозы по регрессии с детерминированными факторами

361

что в момент t в экономике произошло какое-нибудь важное событие (например, отставка правительства). Тогда можно построить фиктивную переменную

δtt , которая равна нулю всегда, кроме момента t = t , когда она равна единице: δtt = (0, . . . , 0, 1, 0, . . . , 0).

Такая фиктивная переменная пригодна только для моделирования кратковременного отклонения временного ряда. Если же в экономике произошел структурный сдвиг, вызвавший скачок в динамике ряда, то следует использовать фиктивную переменную другого вида: (0, . . . , 0, 1, . . . , 1). Эта переменная равна нулю до некоторого фиксированного момента t , а после этого момента становится равной единице.

Заметим, что последние два вида переменных нельзя использовать для прогнозирования, поскольку они относятся к единичным непрогнозируемым событиям.

11.5.Прогнозы по регрессии с детерминированными факторами.

Экстраполирование тренда

Предположим, что данные описываются линейной регрессией с детерминированными регрессорами, являющимися функциями t, и получены оценки параметров регрессии на основе данных x = (x1, . . . , xT ) и соответствующей матрицы факторов Z. Это позволяет построить прогноз на будущее, например на период T + k. Вообще говоря, прогноз в такой регрессии строится так же, как в любой классической линейной регрессии. Отличие состоит только в том, что значения факторов zT +k , необходимые для осуществления прогноза, в данном случае всегда известны.

Рассмотрим прогнозирование на примере, когда временной ряд моделируется по упрощенной схеме — тренд плюс шум: xt = τt + εt, где τt = ztα, zt — вектор-строка значения факторов регрессии в момент t, α — вектор-столбец коэффициентов регрессии.

Такое моделирование имеет смысл, если циклические и сезонные компоненты отсутствуют или мало значимы. Тогда выявленный тренд τt может служить основой для прогнозирования. Прогноз величины xT +k строится по формуле условного математического ожидания xT (k) = zT +k a, где a — оценки параметров, полученные с помощью МНК, т.е. a = (Z Z)1 Z x. Известно, что такой прогноз обладает свойством оптимальности.

Предположим, что для описания тренда выбран многочлен:

τt = α0 + α1t + α2t2 + . . . + αptp, t = 1, . . . , T.

362

Глава 11. Основные понятия в анализе временных рядов

В такой модели матрица факторов имеет следующий вид:

 

10

11

· · ·

1p

Z =

20

21

· · ·

2p .

 

.

. .

.

 

.

 

.

.

 

 

.

 

.

.

 

 

. .

 

T 0

T 1 · · ·

T p

Вектор значений факторов на момент T + k известен определенно:

zT +k = 1, (T + k), (T + k)2, . . . , (T + k)p .

Точечный прогноз исследуемого показателя в момент времени T на k шагов вперед равен:

xT (k) = zT +ka = a0 + a1(T + k) + a2(T + k)2 + . . . + ap(T + k)p.

Возвратимся к общей теории прогноза. Ошибка прогноза равна:

d = xT +k − xT (k) = xT +k − zT +ka.

Ее можно представить как сумму двух отдельных ошибок:

d = (xT +k − zT +kα) + (zT +k α − zT +k a) = εT +k + zT +k (α − a).

Первое слагаемое здесь — это будущая ошибка единичного наблюдения, а второе — ошибка, обусловленная выборкой и связанная с тем, что вместо неизвестных истинных параметров α используются оценки a.

Прогноз будет несмещенным, поскольку

E(d) = E(εT +k ) + zT +k E(α − a) = 0.

Величина xT (k) представляет собой точечный прогноз. Поскольку точечный прогноз всегда связан с ошибкой, то важно иметь оценку точности этого прогноза. Кроме того, вокруг точечного прогноза желательно построить доверительный интервал и, тем самым, получить интервальный прогноз.

Точность прогноза измеряется, как правило, средним квадратом ошибки прогноза, т.е. величиной E(d2), или корнем из нее — среднеквадратической ошибкой прогноза. Поскольку E(d) = 0, то средний квадрат ошибки прогноза равен дисперсии ошибки прогноза. Полезным показателем точности является корень из этой

Соседние файлы в предмете Политология