Введение в многомерный статистический анализ / page14-58 / ander2_2_2
.docявляется результатом невырожденного преобразования X и поэтому распределен нормально с
(26)
так как
Таким образом, Y(1) и Y(2) независимы и, согласно следствию 2.4.1, X(2) =Y(2) имеет частное распределение Поскольку нумерация компонент X произвольна, мы можем сформулировать следующую теорему.
Теорема 2.4.3. Если X имеет распределение то совместное распределение некоторого множества компонент X является многомерным нормальным распределением со средними значениями, дисперсиями и ко-вариациями, определяемыми из соответствующих компонент и .
Рассмотрим преобразование
Z = DX (29)
где Z содержит q компонент, a D — действительная матрица порядка q р. Математическое ожидание Z есть
(30)
а ковариационная матрица есть
(31)
Случай, когда q = р и D не вырождена, был рассмотрен выше. Если q р и D имеет ранг q, то можно найти такую матрицу Е порядка (р—q) p, для которой преобразование
(32)
является невырожденным. Тогда для Z и W существует совместное нормальное распределение и, согласно теореме 2.4.3, частное распределение Z нормально. Таким образом, для матрицы D ранга q (причем X имеет невырожденное распределение, т. е. плотность вероятности) мы доказали следующую теорему.
Теорема 2.4.4. Если X распределен , то Z = DX распределен где D есть матрица порядка q p и ранга q р.
Конец настоящего параграфа посвятим несобственному, или вырожденному, нормальному распределению и распространению теоремы 2.4.4 на случай любой матрицы D. Вырожденное распределение есть распределение в p-мерном пространстве, которое концентрируется в подпространстве меньшего числа измерений, т. е. вероятность попадания в множество, не пересекающее подпространства, равна нулю. В случае вырожденного нормального распределения масса сосредоточена на линейном подпространстве [т. е. на пересечении некоторого числа (р—1)-мерных гиперплоскостей]. Пусть у - множество координат подпространства (число координат равно размерности подпространства), тогда подпространство может быть задано параметрически в виде, где А есть матрица порядка ,а -
p-мерный вектор. Предположим, что Y нормально распределен в q-мерном подпространстве; тогда мы скажем, что
(33)
имеет несобственное, или вырожденное, нормальное распределение в p-мерном пространстве. Если MY=v, то. Если , то
Следует заметить, что если р> q, то матрица вырожденная и не имеет обратной, и поэтому мы не можем написать нормальную плотность для X. В самом деле, X совсем не может иметь плотность распределения, так как из равенства нулю вероятности попадания в любое множество, не пересекающее q-мерного пространства, следует, что плотность распределения вероятностей равна нулю почти всюду.
Теперь заметим, что, наоборот, если среднее значение X равно и ковариационная матрица имеет ранг r, то X можно записать в виде (33) (за исключением нулевой вероятности), где X имеет произвольное распределение и Y, состоящий из r (p) компонент, имеет соответствующее распределение. Если имеет ранг r, то имеется невырожденная матрица В порядка такая, что
(34)
где тождественная матрица имеет ранг r (см. теорему 6 приложения 1).
Преобразование '
(35)
определяет случайный вектор V, ковариационная матрица которого есть (34), а среднее значение
(36)
Так как дисперсии компонент V(2) равны нулю, то с вероятностью единица .Теперь расчленим так:
(37)
где С состоит из r столбцов. Тогда (35) принимает вид
(38)
Таким образом, с вероятностью единица
(39)
что имеет вид (33) (где С заменяет A, V(1) заменяет Y и заменяет ).
Дадим теперь определение нормального распределения, которое включает и случай вырожденного распределения.
Определение 2.4.1. Говорят, что р-мерный случайный вектор X с и нормально распределен (или распределен), если существует преобразование (33), в котором число строк матрицы А равно р, а число столбцов равно рангу r матрицы и r-мерный .вектор Y имеет невырожденное нормальное распределение с плотностью распределения
(40)
Ясно, что если имеет ранг р, то А можно взять равным I и равным 0; в этом случае X=Y и определение 2.4.1 согласуется с изложенным в § 2.3.
Теорема 2.4.5. Если X распределен , то Z = DX распределен .
Эта теорема включает случаи как невырожденного, так и вырожденного распределения X, a D может быть невырожденной и иметь ранг, меньший q. Так как X может быть выражен формулой (33), где Y имеет невырожденное распределение , то мы можем написать
, (41)
где DA — матрица порядка . Если ранг DA равен r, то теорема доказана. Если же ранг DA меньше r, например s, то ковариационная матрица величины Z
(42)
имеет ранг s. Согласно теореме 6 приложения 1, существует невырожденная матрица
(43)
такая, что
(44)
Таким образом, матрица F1DA имеет ранг s согласно теореме 1, обратной к теореме 1 приложения 1, и матрица F2DA = 0, так как каждый диагональный элемент (F2DA) T(F2DA)' есть квадратичная форма относительно элементов соответствующей строки F2 DA с положительно определенной матрицей Т. Поэтому ковариационная матрица величины FZ есть (44) и
(45)
Ясно, что U1имеет невырожденное нормальное распределение. Пусть F -1(G1,G2). Тогда
(46)
что имеет вид (33). Таким образом, теорема доказана.
Все выводы настоящего параграфа можно проиллюстрировать, рассматривая введенную в предыдущем параграфе геометрическую интерпретацию. Плотность распределения вероятностей величины X постоянна на эллипсоидах (51) § 2.3. Так как преобразование (2) является линейным преобразованием (т. е. изменяет оси координат), то плотность распределения Y постоянна на эллипсоидах
(47)
Частное распределение X(1) является проекцией массы распределения X в q-мерное пространство первых q координатных осей. Поверхности, на которых плотности распределения постоянны, также являются эллипсоидами. Ясно, что проекция массы на любую прямую нормально распределена.
2.5. Условные распределения и множественный
коэффициент корреляции
2.5.1. Условные распределения. В этом параграфе мы покажем, что условные распределения, полученные из совместного нормального распределения, также нормальны. Условные распределения имеют особенно простую природу, так как средние значения зависят от значений фиксированных случайных величин только линейно, а дисперсии и ковариации вообще не зависят от значений фиксированных случайных величин. Теория частной и множественной корреляции, рассматриваемая в этом параграфе, была первоначально изложена Пирсоном [1] для трех величин и далее разработана Юлом [1], [2].
Пусть вектор Хп имеет распределение ( не вырождена) и разбит, как и раньше, на два подвектора
(1)
с q и (р — q) компонентами соответственно. Применим здесь алгебраические результаты, изложенные в § 2.4. Совместная плотность распределения вероятностей и есть
Плотность распределения вероятностей X(1) и X(2) тогда может быть определена из этого выражения путем подстановки вместо y (1) и x (2) вместо y (2) (определитель этого преобразования равен 1). Совместная плотность распределения вероятностей X(1) и X(2) равна
где
(3)
Эта плотность вероятности должна быть . Условная плотность вероятности X(1) при данном значении X(2) =x (2) равна частному от деления (2) на значение частной плотности вероятности величины X(2) в точке x(2), которое равно , т. е. второму множителю в (2). Тогда частное будет равно
Ясно, что x(2) состоит из р — q компонент. Плотность вероятности f(x(1)|x(2)) является
q-мерной нормальной плотностью со средним значением
, (5)
и ковариационной матрицей
(6)
Следует заметить, что среднее значение X(1) при данном х(2) является просто линейной функцией x(2) , а ковариационная матрица Х(1) при данном x(2) вообще не зависит от x(2).
Определение 2.5.1. Матрица называется матрицей коэффициентов регрессии Х (1) на x(2) .
Элемент i-и строки и j-го столбца матрицы часто обозначается через
Вектор часто называют функцией регрессии.
Пусть является элементом i-й строки и j-го столбца матрицы .Мы назовем его частной ковариацией.
Определение 2.5.2. Выражение
(7)
называется частным коэффициентом корреляции между Xi и Xj при фиксированных Xq+l, ..., Хр.
Нумерация компонент X и число q произвольны. Следовательно, это определение