Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Ведение в социально - экономическую статистику. Учебник. Новосибирск, 2004. 739 с

.pdf
Скачиваний:
42
Добавлен:
22.08.2013
Размер:
4.02 Mб
Скачать

4.3. Дисперсионный анализ

163

где

означает суммирование по всем наблюдениям, в которых j-й фактор

I−ij (j)

находится на уровне ij .

Если бы тот факт, что j-й фактор находится на уровне ij , не влиял на изучаемый признак, означало бы, что

xij (j) = b0.

Потому bij (j) = xij (j) − b0 — коэффициент влияния на изучаемый признак того, что j-й фактор находится на уровне ij . Это — главные эффекты, или эффекты 1-го порядка.

Очевидно, что

kj

bij (j) = 0

ij =1

и дисперсия, определенная влиянием j-го фактора, равна

s2 = 1

kj

b

 

.

 

 

 

 

 

 

 

2

 

 

j

 

 

 

ij (j)

 

 

 

kj ij =1

 

 

 

 

 

 

 

 

 

 

Каждые два фактора j и j делят совокупность на Kjj = kj k

групп по

N

Kjj

 

 

 

 

 

j

 

элементов. Для каждой из таких групп рассчитывается среднее изучаемого признака:

 

xij ij (jj ) =

Kjj

xI ,

 

N

 

 

 

I−ij ij (jj )

где

означает суммирование по всем наблюдениям, в которых j-й фактор

 

I−ij ij (jj )

 

 

находится на уровне ij , а j -й фактор — на уровне ij .

Если бы тот факт, что одновременно j-й фактор находится на уровне ij , а j -й фактор — на уровне ij , не влиял на изучаемый признак, то это означало бы, что

jj

xij ij (jj ) = b0 + bij (j) + bij (j ).

Поэтому

bij ij (jj ) = xij ij (jj ) − b0 + bij (j) + bij (j )

164 Глава 4. Введение в анализ связей

— коэффициент влияния на изучаемый признак того, что одновременно j-й фактор находится на уровне ij , а j -й фактор — на уровне ij . Это эффекты взаимодей-

ствия (или сочетания) факторов j и

j , парные эффекты, или эффекты 2-го

порядка.

 

 

 

 

Легко убедиться в том, что

 

kj

 

 

 

kj

bij ij (jj ) =

bij ij (jj ) = 0,

ij =1

 

 

 

ij =1

и тогда

 

 

 

 

 

1

 

2

sjj2

=

 

 

bij ij (jj )

Kjj

 

 

 

ij ,ij

дисперсия, определенная совместным влиянием факторов j и j . Рассмотрим общий случай.

 

Факторы J = {j1j2 . . . jn }, n

n делят совокупность на KJ = J

kj групп

по

N

элементов (выделяют группы класса J порядка n ). Мультииндексом таких

 

 

KJ

j1j2 . . . jn = ij1 ij2 . . . ijn ; конкретно

групп является I (J ) = i1i2 . . . in

данный мультииндекс именует группу, в которой фактор j1 находится на уровне ij1 и т.д. По каждой такой группе рассчитывается среднее изучаемого признака:

 

xI(J ) =

KJ

xI ,

 

 

 

 

 

 

 

N I−I(J )

 

где

— означает суммирование по всем наблюдениям, в которых фактор j1

 

I−I(J )

 

 

 

 

находится на уровне ij1 и т.д.

 

 

 

 

 

Как и в двух предыдущих случаях:

 

 

 

 

 

bI(J ) = xI(J )

b0 +

bI(J¯)

(4.40)

 

 

 

 

J¯ J

 

эффекты взаимодействия (или сочетания) факторов J, эффекты порядка n . Здесь — суммирование по всем подмножествам множества J без самого

¯

J J

множества J .

Суммирование этих коэффициентов по всем значениям любого индекса, входящего в мультииндекс I(J ) дает нуль.

s2

=

1

b2

 

J

 

KJ

I(J )

 

 

I(J )

 

 

 

4.3. Дисперсионный анализ

165

дисперсия, определенная совместным влиянием факторов J . При определении эффектов наивысшего порядка

J = G, xI(G) = xI , KG = N.

Из способа получения коэффициентов эффектов должно быть понятно, что

G

xI = b0 + bI(J ).

J =1

Все факторные дисперсии взаимно независимы и общая дисперсия изучаемого признака в точности раскладывается по всем возможным сочетаниям факторов:

 

G

 

s2 =

sJ2 .

(4.41)

 

J =1

 

Данное выражение называют дисперсионным представлением, или тождеством.

Этот факт доказывается в IV части книги.

Пока можно его только проверить, например, при n = 2. Используя 1-й способ обозначений (см. п. 4.1):

1

b0 = k k xi1 i2 ,

1 2 i1,i2

xi1

x i2

bi1 i2

=

1

x

 

,

b

 

 

= x

 

k2

 

 

 

 

 

i2

i1 i2

 

 

i1

i1

 

 

 

 

 

 

 

 

 

=

1

x

 

,

b

 

 

= x

 

k1

 

i2

 

 

i1

i1 i2

 

 

i2

= xi1 i2 b0 bi1 b i2 ,

 

 

 

1

 

 

− b0, s12

=

 

 

bi21 ,

k1

i1

 

 

 

1

 

 

− b0, s22

=

 

 

b2i2 ,

k2

i2

 

1

 

 

 

 

 

s2

=

 

 

 

 

b2

.

 

 

 

 

12

 

k1k2 i1 ,i2

i1i2

 

 

 

 

 

Теперь, раскрывая скобки в выражении для s212 и учитывая, что xˆi1 i2 = xi1 i2 − b0 , получаем:

 

1

 

 

 

 

 

1

 

 

1

 

 

 

 

2

 

 

 

 

 

s122

=

 

i1 ,i2 xˆi21 i2 +

 

 

bi21 +

 

 

 

 

b2i2

 

 

 

bi1

i2 xˆi1 i2

k1k2

k1

i1

k2

i2

k1k2

i1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

←−−−−→2 i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=k b

1

 

 

 

 

 

2

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

b i2

xˆi1 i2

+

 

 

bi1

 

b i2 = s2 − s12 − s22.

 

 

 

 

 

k1k2

i2

k1k2

 

i2

 

 

 

 

 

 

 

 

 

 

i1

 

 

 

i1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

←−−−−→1 i

 

 

 

←−−−→←−−−→

 

 

 

 

 

 

 

 

 

 

 

 

 

=k b

 

 

 

=0

 

 

=0

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

←−−−−−−−−−−−−−→

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=0

 

 

 

 

 

Т.е. s2 = s2

+ s2

+ s2 , что и требовалось показать.

 

 

 

 

 

1

2

12

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

166

Глава 4. Введение в анализ связей

В силу взаимной независимости эффектов оценки коэффициентов и дисперсий эффектов остаются одинаковыми в любой модели частичного анализа (в котором рассматривается лишь часть всех возможных сочетаний факторов) и совпадают с оценками полного анализа.

Дисперсия s2J имеет KJ степеней свободы:

KJ = (kj 1) .

J

Сумма этих величин по всем J от 1 до G равна N −1. В этом легко убедиться, если раскрыть скобки в следующем тождестве:

N = ((kj 1) + 1).

G

Процедура определения степени влияния факторов на изучаемый признак может быть следующей.

На 1-м шаге выбирается сочетание факторов J1 , оказывающих наибольшее влияние на изучаемый признак. Этими факторами будут такие, для которых минимума достигает показатель pv статистики Фишера

F c =

sJ21 N − KJ1 1

.

 

1

s

2

2

J1

 

 

− sJ1

K

На 2-м шаге выбирается сочетание факторов J2 , для которого минимума достигает показатель pv статистики Фишера

F c =

sJ21 + sJ22

N − KJ1 − KJ2 1

.

 

 

2

s2 − sJ21

− sJ22 KJ1 + KJ2

 

И так далее. Процесс прекращается, как только показатель pv достигнет заданного уровня ошибки, например, 0.05. Пусть этим шагом будет t-й. Оставшиеся сочетания факторов формируют остаточную дисперсию. Как правило, в таком процессе сначала выбираются главные эффекты, затем парные и т.д., так что остаточную дисперсию образуют эффекты высоких порядков.

Расчетные значения изучаемого признака определяются по следующей формуле:

t

xcI = b0 + bI(Jl).

l=1

Этим завершается рассмотрение модели полного многофакторного дисперсионного анализа без повторений.

4.4. Анализ временных рядов

167

Несколько слов можно сказать о многофакторном дисперсионном анализе с повторениями.

Если все NI 1, можно попытаться свести этот случай к предыдущему.

Для каждой конечной группы рассчитываются среднее x¯I и дисперсия s2I . Используя приведенные выше формулы можно рассчитать коэффициенты и дисперсии всех эффектов, заменяя xI на x¯I . К сожалению, в общем случае эффекты перестают быть взаимно независимыми, и в представлении общей дисперсии (4.41) кроме дисперсий эффектов различных сочетаний факторов появляются слагаемые с нижним

индексом ¯. Возникает неопределенность результатов и зависимость их от того

J J

набора сочетаний факторов, которые включены в анализ. Поэтому разные модели частичного анализа дают разные результаты, отличные от полного анализа.

Имеется несколько частных случаев, в которых «хорошие» свойства оценок сохраняются. Один из них — случай, когда все численности конечных групп одинаковы. Тогда дисперсионное тождество записывается следующим образом:

GIK

s2 = s2J + s2I ,

J =1 I=I1

←−−−→

s2e

причем последнее слагаемое — остаточная, или внутригрупповая дисперсия — имеет N − KG 1 степеней свободы.

4.4. Анализ временных рядов

Временным или динамическим рядом называется совокупность наблюдений xi в последовательные моменты времени i = 1, . . . , N (обычно для индексации временных рядов используется t, в этом пункте для целостности изложения материала сохранено i). Задача анализа временного ряда заключается в выделении и моделировании 3-х его основных компонент:

xi = δi + γi + εi, i = 1, . . . , N,

или в оценках:

xi = di + ci + ei, i = 1, . . . , N,

где

δi, di тренд, долговременная тенденция,

γi, ci цикл, циклическая составляющая,

εi, ei случайная компонента,

с целью последующего использования построенных моделей в прикладном экономическом анализе и прогнозировании.

168

Глава 4. Введение в анализ связей

Для выявления долгосрочной тенденции используют различные методы.

Наиболее распространено использование полиномиального тренда. Такой тренд строится как регрессия xi на полином определенной степени относительно времени:

xi = a1i + a2i2 + . . . + b + ei, i = 1, . . . , N.

Для выбора степени полинома можно использовать F -критерий: оценивают тренд как полином, последовательно увеличивая его степень до тех пор, пока удается отвергнуть нулевую гипотезу.

Тренд может быть экспоненциальным. Он строится как регрессия ln xi на полином от времени, так что после оценки параметров регрессии его можно записать в следующем виде:

xi = ea1i+a2i2+...+b+ei , i = 1, . . . , N.

Иногда тренд строится как сплайн, т.е. как некоторая «гладкая» композиция разных функций от времени на разных подпериодах.

Пусть, например, на двух подпериодах [1, . . . , N1] и [N1 + 1, . . . , N ] тренд выражается разными квадратическими функциями от времени (в момент времени N1 происходит смена тенденции):

xi = a1i + a2i2 + b1 + ei1,

i = 1, . . . , N1,

xi = a3i + a4i2 + b2 + ei2,

i = N1 + 1, . . . , N.

Для того чтобы общий тренд был «гладким» требуют совпадения самих значений и значений первых производных двух полиномов в точке «перелома» тенденции:

a1N1 + a2N12 + b1 = a3N1 + a4N12 + b2,

a1 + 2a2N1 = a3 + 2a4N1.

Отсюда выражают, например, a3 и b2 через остальные параметры и подставляют полученные выражения в исходное уравнение регрессии. После несложных преобразований уравнение приобретает следующий вид:

xi = a1i + a2i2 + b1 + ei1, i = 1, . . . , N1,

xi = a1i + a2 i2 (i − N1)2 + b1 + a4 (i − N1)2 + ei2, i = N1 + 1, . . . , N .

Параметры полученного уравнения оцениваются, и, тем самым, завершается построение тренда как полиномиального сплайна.

4.4. Анализ временных рядов

169

Для выявления долговременной тенденции применяют также различные приемы сглаживания динамических рядов с помощью скользящего среднего.

Один из подходов к расчету скользящей средней заключается в следующем: в качестве сглаженного значения xi , которое по аналогии с расчетным значением можно обозначить через xci , принимается среднее значений xi−p, . . . , xi, . . . , xi+p, где p — полупериод сглаживания. Сам процесс сглаживания заключается в последовательном расчете (скольжении средней) xcp+1, . . . , xcN −p. При этом часто теряются первые и последние p значений исходного временного ряда.

Для сглаживания могут использоваться различные средние. Так, например, при полиномиальном сглаживании средние рассчитываются следующим образом.

Пусть сглаживающим является полином q-й степени. Оценивается регрессия вида:

xi+l = a1l + a2l2 + . . . + aq lq + b + ei+l,

l = −p, . . . , p,

и в качестве сглаженного значения xc

принимается

b (расчетное значение при

l = 0).

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Так, при q = 2 и p = 2 уравнение регрессии принимает следующий вид (исключая i

как текущий индекс):

 

 

 

 

 

 

 

 

x2

 

2

4

1

 

 

e2

 

x1

=

1 1 1

a1

+

e1

 

x0

0

0

1

a2

e0

.

 

 

 

x1

 

1

1

1

b

 

e1

 

x2

 

2

4

1

 

 

e2

 

По аналогии с (4.29), можно записать:

 

 

 

 

 

 

 

2

4

1

1

 

 

 

 

x2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

a1

=

2 1

0

1

2

1 1 1

2 1

0

1

2

x1

=

a2

4

1

0

1

4

0

0

1

4

1

0

1

4

x0

 

 

b

 

1

1

1

1

1

1

1

1

1

1

1

1

1

x1

 

 

 

 

 

 

 

 

2

4

1

 

 

 

 

 

x2

 

170

 

 

 

 

Глава 4. Введение в анализ связей

 

 

 

 

 

 

 

x2

=

1

14

7

0

7

14

x1

10 5 10 5 10

x0 .

 

70

 

 

6

24

34

24

6

x1

 

 

 

 

 

 

 

x2

Таким образом, в данном случае веса скользящей средней принимаются равными

351 [3, 12, 17, 12, −3] .

При полиномиальном сглаживании потеря первых и последних p наблюдений в сглаженном динамическом ряду не является неизбежной; их можно взять как расчетные значения соответствующих наблюдений по первому и последнему полиному (в последовательности скольжения средней).

Так, в рассмотренном примере при p = q = 2:

 

 

 

 

 

 

 

x1

 

x1c

 

2a1 + 4a2 + b

 

1

31 9 3 5 3

x2

 

=

=

x3

,

 

35

x2c

 

−a1 + a2 + b

 

 

5

 

 

 

9 13 12 6

x4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x5

 

 

 

 

 

 

 

 

xN −4

xNc 1

=

a1 + a2 + b

=

1

5 6 12 13 9

xN −3 .

 

 

c

 

2a1 + 4a2 + b

 

35

 

5 3 9 31

xN −2

xN

 

 

3

 

xN −1 xN

Как видно, все эти расчетные значения являются средними взвешенными величинами с несимметричными весами.

Для выбора параметров сглаживания p и q можно воспользоваться F -критерием (применение этого критерия в данном случае носит эвристический

4.4. Анализ временных рядов

171

характер). Для каждой проверяемой пары p и q рассчитывается сначала остаточная дисперсия:

 

 

1

N

(xi − xic)2,

 

 

se2 =

 

 

 

 

 

 

 

N i=1

 

а затем F -статистика:

 

 

 

 

 

F c =

sx2 − se2 (2p − q)

,

 

 

 

 

s2q

 

 

 

 

 

e

 

где s2

— полная дисперсия ряда.

 

 

 

 

x

 

 

 

 

 

Выбираются такие параметры сглаживания, при которых эта статистика (q степеней свободы в числителе и 2p − q степеней свободы в знаменателе) имеет наименьший показатель pv.

Другой способ сглаживания называется экспоненциальным. При таком способе в качестве сглаженного (расчетного) значения принимается среднее всех предыдущих наблюдений с экспоненциально возрастающими весами:

xci+1 = (1 − a) alxi−l,

l=0

где 0 < a < 1 — параметр экспоненциального сглаживания (xc

является на

 

1

i

 

l

 

 

самом деле средней, т.к. l=0 a =

 

).

 

1 − a

 

В такой форме процедура сглаживания неоперациональна, поскольку требует

знания всей предыстории — до минус бесконечности. Но если из xc

вычесть

 

i+1

 

axc, то весь «хвост» предыстории взаимно сократится:

 

i

 

 

 

xic+1 axic = (1 a)xi + (1 a) l=1 alxi−l (1 a) l=0 al+1xi−1−l .

←−−−−−−−−−−→

←−−−−−−−−−−−−−−→

 

 

←−−−−−−−−−−−−−−−−−−→

 

=

Отсюда получается правило экспоненциального сглаживания:

xci+1 = (1 − a)xi + axci ,

в соответствии с которым сглаженное значение в следующий момент времени получается как среднее фактического и сглаженного значений в текущий момент времени.

Для того чтобы сгладить временной ряд, используя это правило, необходимо задать не только a, но и xc1 . Эти два параметра выбираются так, чтобы минимума достигла остаточная дисперсия. Минимизация остаточной дисперсии в данном

172

Глава 4. Введение в анализ связей

случае является достаточно сложной задачей, поскольку относительно a она (остаточная дисперсия) является полиномом степени 2(N −1) (по xc1 — квадратичной функцией).

Пусть долговременная тенденция выявлена. На ее основе можно попытаться сразу дать прогноз моделируемой переменной (прогноз, по-видимому, будет точнее, если в нем учесть все компоненты временного ряда).

В случае тренда как аналитической функции от времени i, прогнозом является расчетное значение переменной в моменты времени N + 1, , N + 2, . . . .

Процедура экспоненциального сглаживания дает прогноз на один момент времени вперед:

xcN +1 = (1 − a) xN + axcN .

Последующие значения «прогноза» не будут меняться, т.к. отсутствуют основания для определения ошибки eN +1 и т.д. и, соответственно, для наблюдения различий между xcN +1 и xN +1 и т.д.

При полиномиальном сглаживании расчет xcN +1 проводится по последнему полиному (в последовательности скольжения средней) и оказывается равным некоторой средней последних 2p + 1 наблюдений во временном ряду.

В приведенном выше примере (p = q = 2):

 

 

 

 

 

xN −4

 

xc = (b + 3a1 + 9a2) =

1

 

xN −3

 

 

 

.

35 21 21 28 0 63

xN −2

N +1

 

 

 

 

xN −1 xN

Определение циклической и случайной составляющей временного ряда дается во II части книги.

4.5. Упражнения и задачи

Упражнение 1

На основании информации о весе и росте студентов вашего курса:

1.1. Сгруппируйте студентов по росту и весу (юношей и девушек отдельно).

Соседние файлы в предмете Политология