Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Ведение в социально - экономическую статистику. Учебник. Новосибирск, 2004. 739 с

.pdf
Скачиваний:
42
Добавлен:
22.08.2013
Размер:
4.02 Mб
Скачать

4.1. Совместные распределения частот количественных признаков

133

В этом случае существует только два маргинальных распределения частот — отдельно для 1-го признака (итоговый столбец таблицы сопряженности) и для 2-го признака (итоговая строка). Для частот и других параметров этих распределений удобнее и нагляднее 1-й способ обозначения: вместо Ni1(1) и N12(2) используется, соответственно, Ni1 и N i2 . Этот способ обозначений удобен, если n мало, но описать общий случай, как это сделано выше, с его помощью весьма затруднительно. Формулы (4.3) в случае двух признаков принимают вид (после запятой эти же формулы даются в обозначениях 1-го способа):

 

Fi1(1) = Fi1k2 ,

Fi1 = Fi1k2 ;

 

Fi2(2) = Fk1i2 ,

F i2 = Fk1i2 .

Аналогично, для формул (4.5):

 

 

 

k2

fi1 =

k2

fi1(1) =

fi1i2 i2(2),

fi1i2 i2 ;

 

i2=1

 

i2=1

 

k1

f i2 =

k1

fi2(2) =

fi1i2 i1(1),

fi1i2 i1 .

 

i1=1

 

i1=1

Если в таблице сопряженности разместить не частоты, а плотности относительных частот, и на каждой клетке таблицы построить параллелепипед высотой, равной соответствующему значению плотности, то получится трехмерный аналог гистограммы, который иногда называют стереограммой. Ее верхнюю поверхность называют поверхностью двухмерного распределения.

Если предположить, что N, k1, k2 → ∞, допуская при этом, что

z01, z02 → −∞, а zk11, zk22 → ∞, то f и F станут гладкими функциями f (x1, x2) и F (x1, x2), соответственно, распределения плотности вероятности и распре-

деления вероятности. Это — теоретические функции распределения. Формулы (4.1–4.3, 4.5) записываются для них следующим образом:

∞ ∞

f (x1, x2) dx1dx2 = 1,

−∞ −∞

x1 x2

 

F (x1, x2) =

f x1, x2 dx1dx2,

 

−∞ −∞

F (x1) = F (x1, ∞), F (x2) = F (∞, x2),

f (x1) =

f (x1, x2) dx2, f (x2) = f (x1, x2) dx1.

−∞

−∞

134 Глава 4. Введение в анализ связей

Легко представить возможные обобщения таблицы сопряженности на случай n > 2. Ее аналогом является n-мерный прямоугольный параллелепипед, в итоговых гранях которого (в таблице сопряженности таких граней две — итоговые столбец и строка) даны все возможные маргинальные распределения частот. Итоговые грани — крайние, предельные, маргинальные части параллелепипеда. Это дает еще одно объяснение используемому термину — «маргинальные распределения».

Исходное распределение и любое маргинальное распределение частот строятся по всей совокупности. Однако важное значение имеют и распределения, построенные по отдельным частям выборки. Так, наряду с рассмотренным распределением частот признаков J по группам класса J , можно говорить о распределении частот

признаков ¯ (всех оставшихся признаков) по конечным группам в каждой отдель-

J

ной группе класса J . Это — условные распределения частот. Они показывают

распределения частот признаков ¯ при условии, что все остальные признаки

J J

зафиксированы на определенных уровнях I(J ). В таблице сопряженности таковыми являются распределения 1-го признака в каждом отдельном столбце, если J = 2, и распределения 2-го признака в каждой отдельной строке, если J = 1.

 

 

 

 

N

 

 

¯

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

α

¯

=

 

 

I(J )+I(J )

 

— относительные частоты условного распределения

 

 

NI(J )

 

I(J ) | I(J )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

¯

по I(J ). Если числитель и знаменатель правой части этой формулы

признаков J

поделить на N , то получится

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

α

 

¯

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

α

¯

 

 

 

 

 

=

 

I(J )+I(J )

 

или

 

 

 

 

 

 

 

 

 

 

 

 

 

|

 

 

 

 

 

 

αI(J )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

I

(J )

I(J )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

α

¯

|

I(J )

αI(J )

= α

 

 

¯ .

 

 

 

 

 

 

(4.6)

 

 

 

 

 

 

 

 

 

I

(J )

 

 

 

 

 

I(J )+I(J )

 

 

 

 

 

 

 

 

 

α

 

¯

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

f

 

¯

=

 

I(J ) | I(J )

— плотности относительных частот условного распре-

 

I

(J) | I(J )

 

 

 

 

¯

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

I(J)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

деления. Если левую часть равенства (4.6) разделить на ∆

¯

I(J )

, а правую —

на ∆I

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

I(J)

 

 

 

(оба этих делителя, как отмечено выше, равны), то получится аналогичное

(4.6) равенство для плотностей:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

f

¯

 

| I(J )

f

I(J )

= f

 

 

¯ .

 

 

 

 

 

 

(4.7)

 

 

 

 

 

 

 

 

 

 

I(J)

 

 

I(J )+I(J )

 

 

 

 

 

В случае двух признаков и при использовании 1-го способа индексации:

 

 

 

 

fi1 | i2 =

 

Ni1i2 1

 

, f i2 | i1 =

 

Ni1i2 1

 

,

 

 

 

 

 

 

 

N i2

 

i1

 

Ni1

 

i2

 

 

 

i1

 

и ∆ i2 — результат использования первого способа индексации для ∆i1(1)

и ∆i2(2) ;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

fi1 | i2 f i2 = fi1i2 , f i2 | i1 fi1 = fi1i2 .

4.1. Совместные распределения частот количественных признаков

135

В результате объединения двух последних равенств и перехода к непрерывному случаю получаются известные формулы математической статистики об условных распределениях:

f (x1 | x2) f (x2) = f (x1, x2) = f (x2 | x1) f (x1),

из которых, в частности, следует тождество теоремы Байеса:

f (x1 | x2) f (x2) = f (x2 | x1) f (x1).

Далее, по определению,

F ( ¯) | ( ) = α ( ¯) | ( )

I J I J I J I J

( ¯) ( ¯)

I J I J

— накопленные относительные частоты условного распределения. Правую часть этого равенства можно преобразовать:

F ¯

=

 

NI(J )+I (J¯) =

N

I(J ) | I(J )

 

 

NI(J )

 

NI(J )

 

 

I (J¯) I(J¯)

 

N ( )+ ( ¯) F ( )+ ( ¯)

I J I J = I J I J ,

N

FI(J )

I (J¯) I(J¯)

 

т.е. для накопленных относительных частот получается соотношение такое же, как и для плотностей относительных частот f :

F ¯

FI(J ) = F

¯ .

(4.8)

I(J ) | I(J )

 

I(J )+I(J )

 

В непрерывном случае для двух признаков:

F (x1 | x2)F (x2) = F (x1, x2) = F (x2 | x1)F (x1),

F (x1 | x2)F (x2) = F (x2 | x1)F (x1).

Количество параметров относительной частоты (также как и плотности отно-

сительной частоты и накопленной относительной частоты) α ¯

условного

 

¯

по I(J )

 

 

¯

=

I(J ) | I(J )

 

распределения признаков

равно

K

J

kj — числу всех возмож-

J

 

 

 

 

 

 

 

 

¯

 

 

 

¯

 

 

 

 

J

¯

ных сочетаний уровней признаков J . Таких условных распределений признаков J

имеется KJ — для каждого возможного сочетания уровней факторов J . Так, при n = 2 в таблице сопряженности структура каждого столбца (результат деления элементов столбца на итоговый — сумму элементов) показывает относительные частоты условного распределения 1-го признака по уровням 2-го признака (если J = 2). Количество параметров относительной частоты каждого такого условного

136

Глава 4. Введение в анализ связей

распределения — k1 , а число столбцов — условных распределений — k2 . Аналогично — для строк таблицы сопряженности (если J = 1).

Маргинальное распределение признаков ¯ может быть получено из этой со-

J

вокупности условных распределений (для плотностей относительных частот):

 

 

f

 

¯

 

=

 

 

f

¯

 

 

 

αI(J )

 

(4.9)

 

 

 

 

I(J )

 

J

 

 

I(J ) | I(J )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

или

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

f

¯

=

 

 

f

 

¯

 

f

I(J )

I(J )

.

 

 

I(J)

 

 

J

 

I(J) | I(J )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Действительно, в соответствии с (4.5)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

f

 

 

¯

 

=

 

 

f

 

 

¯

I(J )

,

 

 

 

 

 

I(J)

 

 

 

 

 

I(J )+I(J )

 

 

 

 

 

 

 

 

 

 

 

 

 

J

 

 

 

 

 

 

 

 

 

 

 

 

 

 

а, учитывая (4.7),

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

f

I

 

 

 

 

¯ I(J ) = f

 

 

¯

 

| I(J )

αI(J ).

J

(J )+I(J )

 

 

 

 

J

 

I(J )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Соотношение, аналогичное (4.9), выполняется и для самих относительных ча-

стот:

 

 

 

 

α ¯

=

α ¯

αI(J )

(4.10)

I(J )

I(J ) | I(J )

 

 

J

(оно получается умножением обеих частей соотношения (4.9) на ∆I(J¯)), а вслед за ним и для накопленных относительных частот:

F ¯ =

F ¯

αI(J ).

(4.11)

I(J )

I(J ) | I(J )

 

 

J

Такая связь условных и маргинального распределений наглядно иллюстрируется таблицей сопряженности (для относительных частот). Очевидно, что средневзвешенный, по весам итоговой строки, вектор структур столбцов этой матрицы алгебраически есть вектор структуры итогового столбца. Аналогично — для строк этой матрицы (для условных и маргинального распределений 2-го признака).

В непрерывном случае при n = 2 соотношение (4.9) имеет вид:

 

f (x1) =

f (x1 | x2) f (x2) dx2, f (x2) =

f (x2 | x1) f (x1) dx1.

−∞

−∞

4.1. Совместные распределения частот количественных признаков

137

Если итоговые грани n-мерного прямоугольного параллелепипеда параметров распределения (обобщения таблицы сопряженности), как отмечалось выше, дают все возможные маргинальные распределения, то ортогональные «срезы» этого параллелепипеда (как строки и столбцы таблицы сопряженности) представляют все возможные условные распределения.

Условные распределения, сопоставляющие в определенном смысле вариации

признаков двух разных групп ¯ и , используются в анализе связей между этими

J J

двумя группами признаков. При этом чрезвычайно важно понимать следующее. Речь в данном случае не идет об анализе причинно-следственных связей, хотя фор-

¯

при условии, что признаки J

принимают

мально изучается поведение признаков J

 

 

¯

разные значения, т.е. признаки J выступают как бы «причиной», а признаки J

«следствием». Направление влияния в таком анализе не может быть определено. Это — предмет более тонких и сложных методов анализа. Более того, содержательно признаки этих групп могут быть не связаны, но, если они одновременно зависят от каких-то других общих факторов, то в таком анализе связь между ними может проявиться. Такие связи в статистике называют ложными корреляциями (или ложными регрессиями). Поэтому всегда желательно, чтобы формальному анализу зависимостей предшествовал содержательный, в котором были бы сформулированы теоретические гипотезы и построены теоретические модели. А результаты формального анализа использовались бы для проверки этих гипотез. То есть из двух задач статистического анализа связей, сформулированных в преамбуле к этому разделу, предпочтительней постановка второй задачи.

 

¯

не зависят друг от друга, то очевид-

 

Если признаки двух множеств J и J

но, что условные распределения признаков

¯

J не должны меняться при изменении

уровней признаков J . Верно и обратное: если условные распределения признаков

¯

 

¯

J

одинаковы для всех уровней I(J ), то признаки двух множеств J и J не зависят

друг от друга. Таким образом, необходимым и достаточным условием независи-

мости признаков двух множеств

¯

и J

является неизменность совместных рас-

J

пределений признаков

¯

при вариации уровней признаков J . Это условие можно

J

сформулировать и в симметричной форме: неизменность совместных распределе-

ний признаков J при вариации уровней признаков

¯

J .

Для таблицы сопряженности это условие означает, что структуры всех ее столбцов одинаковы. Одинаковы и структуры всех ее строк.

Итак, в случае независимости данных множеств признаков относительные ча-

стоты α ¯

не зависят от I(J ) и их можно обозначить через α˜ ¯ . Тогда

I(J ) | I(J )

I(J )

из соотношения (4.10) следует, что относительные частоты этого распределения совпадают с относительными частотами соответствующего маргинального распре-

деления: α˜ ¯

= α ¯ , т.к.

α

 

= 1, и соотношения (4.6) приобретают вид:

I(J )

I(J )

I(J )

 

 

 

 

 

J

 

 

 

 

 

 

 

α

¯ α

I(J )

= α

¯ .

(4.12)

 

 

I(J )

 

I(J )+I(J )

 

138

Глава 4. Введение в анализ связей

В случае двух признаков при

использовании первого способа индексации:

αi1 α i2 = αi1i2 .

 

Не сложно убедиться в том, что аналогичные соотношения в случае независимости признаков выполняются и для f и F :

fi1 f i2

Fi1 F i2

f

¯ f

I(J )

= f

¯ ,

(4.13)

 

I(J )

 

I(J )+I(J)

 

= fi1i2 , а в непрерывном случае: f (x1)f (x2) = f (x1, x2),

F ¯ F

I(J )

= F

¯ .

(4.14)

I(J )

 

I(J )+I(J )

 

= Fi1i2 , F (x1)F (x2) = F (x1, x2).

Любое из соотношений (4.12), (4.13), (4.14) является необходимым и достаточ-

ным условием независимости признаков

¯

и J . Необходимость следует из самого

J

вывода этих соотношений. Достаточность легко показать, например, для (4.12). Так, если выполняется (4.12), то в соответствии с (4.4):

 

 

 

 

 

 

 

 

 

α

¯

 

(J )

 

α

¯

α

 

 

 

 

 

 

 

α

¯

 

 

=

 

 

I(J )+I

=

I

(J )

I(J )

= α

¯

,

 

 

 

 

| I(J )

 

 

αI(J )

 

 

 

 

 

 

 

 

 

I(J )

 

 

 

 

 

 

 

αI(J )

I(J )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

¯

не зависят от уровней, которые занима-

т.е. условные распределения признаков J

ют признаки J , а это означает, что признаки

¯

и J не зависят друг от друга.

J

Можно доказать, что из независимости признаков

¯

 

следует взаимная

J и J

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

¯

 

 

 

 

 

независимость признаков любого подмножества J с признаками любого подмно-

жества J .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Пусть J = J1 + J2 , тогда соотношение (4.12) можно переписать в форме:

 

 

 

 

α

¯ α

 

 

 

 

 

= α

 

 

 

 

¯ ,

 

 

 

 

 

 

 

 

I

(J )

I(J1)+I(J2)

 

 

I

(J1)+I(J2)+I(J )

 

 

 

и, просуммировав обе части этого выражения по J2 (т.е., в соответствии с введен-

ной операцией

J2

, — по всем уровням признаков J2 ), получить следующее:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

α ¯

(4.4)

 

 

¯ α

 

 

 

 

(4.12)

 

 

 

 

 

 

(4.4)

¯ ,

α

= α

 

I(J1)+I(J2)

 

= α

 

 

 

¯

= α

I(J )

I(J1)

 

 

 

I(J )

 

 

 

 

 

I(J1)+I(J2)+I(J )

 

I(J1)+I(J )

 

 

 

J2

 

 

 

 

 

 

 

 

 

 

 

J2

 

 

 

 

 

 

 

 

 

 

 

 

 

т.е.

α

¯

α

 

 

 

= α

 

¯

 

,

 

 

(4.15)

 

 

 

 

 

 

 

 

 

I(J )

I(J1)

 

I

(J1)+I(J )

 

 

 

что означает независимость признаков

 

¯

и J1

в рамках маргинального распреде-

 

J

ления признаков

¯

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

J + J1 .

 

¯

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Пусть теперь

¯

 

¯

 

. После проведения аналогичных операций с (4.15)

J = J1

+ J2

(в частности

операции

суммирования

по

 

¯

 

получается соотношение

 

J2 )

4.1. Совместные распределения частот количественных признаков

139

α

¯

α

= α

¯

, что означает независимость признаков

¯

и J

в рам-

J

 

I(J1)

I(J1)

 

I(J1)+I(J1)

¯

 

1

1

¯

ках маргинального распределения J1

+ J1 . Что и требовалось доказать, т.к. J1

и

 

 

 

 

¯

 

 

 

 

J1 — любые подмножества J и J .

 

 

 

 

Пока речь шла о независимости двух множеств признаков. Точно так же можно

говорить и о независимости трех множеств.

 

Пусть

¯

+ J2 , где J = J1 + J2

. Необходимым и достаточным усло-

G = J + J1

вием взаимной независимости этих трех множеств признаков является следующее равенство:

α ¯ α

I(J1)

α

I(J2)

= α

¯ .

(4.16)

I(J )

 

 

I(J1)+I(J2)+I(J )

 

Это соотношение получается, если в левой части (4.12) вместо αI(J ) записать

αI(J1)αI(J2), т.к. αI(J1)αI(J2) = αI(J1)+I(J2) ≡ αI(J ) — известное условие незави- симости двух множеств признаков в рамках маргинального распределения призна-

ков J .

Необходимым и достаточным условием взаимной независимости всех признаков, входящих в множество J служит следующее соотношение:

αI = αij (j).

(4.17)

J

 

Это соотношение — результат завершения процесса дробления множеств признаков, который начат переходом от (4.12) к (4.16).

Соотношения (4.12–4.14, 4.16–4.17) являются теоретическими. Оцененные по выборочной совокупности параметры совместных распределений, даже если соответствующие множества признаков независимы друг от друга, не могут обеспечить точное выполнение этих соотношений, поскольку они (параметры эмпирических распределений) являются случайными величинами. Критерий независимости строится как определенный показатель (статистика), характеризующий степень нарушения равенств в указанных соотношениях. Использование этого критерия осуществляется как проверка статистической гипотезы (нулевая гипотеза: признаки данных групп не зависимы), логика которой описана в конце пункта 2.4. Данный критерий входит в группу критериев согласия и называется критерием Пирсона, или χ2 (критерием хи-квадрат).

Показатели (статистики) этого критерия — χ2l c c » — calculated, «l » — количество множеств признаков),— называемые иногда выборочными среднеквадратическими сопряженностями признаков, рассчитываются на основе (4.12), (4.16), (4.17) следующим образом:

χ22c = N

¯

J,J

2

α ( )+ ( ¯) − α ( ¯)αI(J )

I J I J I J

α ( ¯)αI(J )

,

I J

140

Глава 4. Введение в анализ связей

χ23c = N

¯

J1,J2,J

αI(J1)+I(J2)+I(J¯) − αI(J¯)αI(J1)αI(J2)

2

 

 

,

 

 

α ¯

α

α

 

 

I(J )

I(J1)

I(J2)

 

 

2

 

 

 

 

χn2c = N

αI J

αij (j)

.

 

 

G

αij (j)

 

J

 

 

Если признаки не зависимы, то соответствующая статистика критерия имеет известное распределение, называемое χ2-распределением (см. Приложение A.3.2). Данное распределение имеет один параметр — число степеней свободы df (degrees free), показывающее количество независимых случайных ве-

личин, квадраты которых входят в сумму. Так, в статистику χ22c входят квадраты

¯

 

K (KJ KJ ) величин αI(J )+I(J¯) − αI(J¯)αI(J ), но не все они независимы, т.к. удовле-

творяют целому ряду линейных соотношений.

Действительно, например:

¯

(αI(J )+I(J¯) − αI(J¯)αI(J )) = 0KJ ,

J

 

где

0 J — матричный нуль, имеющий размерность KJ . То есть KJ

величин

 

K

 

 

 

αI(J )+IK (J¯) −αIK (J¯)αI(J ) линейно выражаются через другие величины. Пусть мно-

жество этих величин обозначается χI(J ).

 

 

 

 

Аналогично, исходные величины αI(J )+I(J¯) − αI(J¯)αI(J ) можно суммировать

 

¯

 

 

 

по

J и установить, что KJ величин αIK (J )+I(J¯) − αI(J¯)αIK (J )

линейно выража-

ются через остальные; их множество можно обозначить χ

¯ .

 

 

 

 

I(J )

 

 

Эти два множества χI(J ) и χ ( ¯) имеют один общий элемент: α ( )+ ( ¯)

I J IK J IK J

−α ( ¯)αI (J ). Таким образом, количество степеней свободы df2 (при l = 2) рав-

IK J K

¯

¯

 

но K − KJ

− KJ +¯1 = (KJ 1)(KJ 1). Аналогично рассуждая, можно устано-

вить, что df3 = (KJ 1)(KJ1 1)(KJ2 1), dfL = J

(kj 1).

Итак, чтобы ответить на вопрос, являются ли независимыми изучаемые множества признаков, необходимо расчетное значение статистики χ2l c сравнить со значением 95-процентного квантиля χ2dfl -распределения (в п. 2.4 отмечалось, что в статистике вполне приемлемым считается 95-процентный уровень доверия), ко-

торый обозначается χ2

(это — односторонний квантиль, так как плотность

dfl, 0.95

 

χ2 -распределения расположена в положительной области значений случайной величины и не симметрична). Значения этих квантилей находят в соответствующих статистических таблицах и называют теоретическими, или табличными. Если расчетное значение не превышает табличное (т.е. является достаточно малым), то нулевая гипотеза не отвергается и данные множества признаков считаются незави-

4.2. Регрессионный анализ

141

симыми. Если расчетное значение больше табличного, то множества признаков определяются как зависимые между собой с уровнем ошибки 5%.

Современные пакеты прикладных статистических программ избавляют от необходимости пользоваться статистическими таблицами, т.к. расчет статистики критерия сопровождается оценкой уровня его значимости sl (significance level). Для некоторых критериев этот показатель называется значением вероятности pv (probability value). Уровень значимости sl — это такое число, что

χ2l c = χ2dfl,1−sl.

То есть нулевая гипотеза отвергается с вероятностью ошибки 0.05, если sl < 0.05.

В случае 2-х признаков среднеквадратичная сопряженность имеет следующий вид (здесь и ниже используется 1-й способ обозначений):

χ2c

= N

(αi1i2 αi1 α i2 )2

,

2

 

αi1 α i2

 

i1,i2

а соответствующее ей χ2 -распределение имеет (k1 1)(k2 1) степеней свободы;

множество χi1 образовано величинами αi1k2 − αi1 α k2 , i1 = 1, . . . , k1 , множество χ i2 — величинами αk1i2 −αk1 α i2 , i2 = 1, . . . , k2 , общим для них является элемент αk1k2 − αk1 α k2 .

Далее в этой главе рассматривается в основном случай двух признаков.

4.2. Регрессионный анализ

В качестве значений признаков xi1 и x i2 на полуинтервалах, как и прежде, принимаются середины этих полуинтервалов. Средние и дисперсии признаков рассчитываются по известным формулам:

x¯1 =

xi1 αi1 , x¯2 =

x i2 α i2 ;

s12

=

 

(xi1−x¯1 )2 αi1 ,

s22 =

(x i2 − x¯2)2 α i2 или, более компактно,

s2

=

xˆ2 α

, s2 = xˆ2

α

.

1

 

 

i1 i1

2

i2

i2

 

Важной характеристикой совместного распределения двух признаков является ковариация — совместный центральный момент 2-го порядка:

m12 = xˆi1 xˆ i2 αi1i2 .

Дисперсия — частный случай ковариации (ковариация признака с самим собой), поэтому для обозначения дисперсии j-го признака часто используется mjj .

142

Глава 4. Введение в анализ связей

В случае независимости признаков, когда αi1i2 = αi1 α i2 , как несложно убедиться, ковариация равна нулю. Равенство ковариации нулю2 является необходимым, но не достаточным условием независимости признаков, т.к. ковариация — характеристика только линейной связи. Если ковариация равна нулю, признаки линейно независимы, но какая-то другая форма зависимости между ними может существовать.

Мерой линейной зависимости является относительная ковариация, называемая

коэффициентом корреляции:

r12 = m12 . m11m22

Этот коэффициент по абсолютной величине не превышает единицу (этот факт доказывается ниже). Если его значение близко к нулю, то признаки линейно независимы, если близко к плюс единице — между признаками существует прямая линейная зависимость, если близко к минус единице — существует обратная линейная зависимость. В частности, легко убедиться в том, что если xˆi1 = ±a12xˆ i2 (т.е. между признаками имеет место линейная зависимость), то r12 = ±1.

Значения ковариаций и коэффициентов корреляции симметричны: m12 = m21 ,

r12 = r21 .

В дальнейшем рассуждения проводятся так, как будто 1-й признак зависит от 2-го (хотя с тем же успехом можно было бы говорить о зависимости 2-го признака от 1-го). В таком случае переменная x1 (значения 1-го признака) называется

объясняемой, моделируемой, эндогенной, а переменная x2 (значения 2-го признака) — объясняющей, факторной, экзогенной.

Наряду с общей средней 1-го признака x¯1 полезно рассчитать условные средние x¯1 | i2 3 — средние 1-го признака при условии, что 2-й признак зафиксирован на определенном уровне i2 . При расчете таких средних усреднение значений признака на полуинтервалах проводится по относительным частотам не маргинального (αi1 ), а соответствующих условных распределений (αi1 | i2 ):

 

 

x¯1 | i2 = xi1 αi1 | i2 .

Усреднение этих величин по весам маргинального распределения 2-го признака

дает общее среднее:

 

 

 

x¯1 = xi1 αi1 =

 

xi1 αi1i2 =

xi1 αi1 | i2 α i2 = x¯1 | i2 α i2 .

i1

i2 i1

i2 i1

i2

2

Равенство или неравенство нулю понимается в статистическом смысле: не отвергается или от-

вергается соответствующая нулевая гипотеза.

 

 

 

3

В общем случае вектор условных средних признаков

¯

обозначается x¯ ¯

.

 

J

 

 

 

J/I(J )

 

Соседние файлы в предмете Политология