3. Компонентный анализ Для замечаний
3. Компонентный и факторный анализ
3.1. Основы компонентного анализа
Компонентный анализ предназначен для преобразования системы k исходных признаков, в систему k новых показателей (главных компонент). Главные компоненты не коррелированны между собой и упорядочены по величине их дисперсий, причем, первая главная компонента, имеет наибольшую дисперсию, а последняя, k-я, наименьшую. При этом выявляются неявные, непосредственно не измеряемые, но объективно существующие закономерности, обусловленные действием как внутренних, так и внешних причин.
Компонентный анализ является одним из основных методов факторного анализа. В задачах снижения размерности и классификации обычно используются m первых компонент (m< k).
При наличии результативного показателя может быть построено уравнение регрессии на главных компонентах.
На основании матрицы исходных данных:
Х=
размерности (nk) , где xij – значение j-го показателя у i-го наблюдения (i=1,2,...,n; j=1,2,...,k) вычисляют средние значения показателей , а также s1, ..., sk и матрицу нормированных значений:
Z=
с элементами:
zij= .
Рассчитывается матрица парных коэффициентов корреляции:
R= ZTZ (3.1)
с элементами:
rjl= = (3.2)
где, j,1 = 1,2, ..., k.
На главной диагонали матрицы R, т.е. при j=l,
.
Модель компонентного анализа имеет вид:
(3.3)
где:
ai – “вес”, факторная нагрузка, -ой главной компоненты на j-ой переменной;
fi – значение -й главной компоненты для i-го наблюдения (объекта), где =1,2, ... ,k.
В матричной форме модель (3.3) имеет вид:
Z = F AT (3.4)
где:
сти
(nk);
– матрица факторных нагрузок размерности (kk).
АТ – транспонированная матрица А;
fi – значение -й главной компоненты у i-го наблюдения (объекта);
aj – значение факторной нагрузки -й главной компоненты на j-й переменной.
Матрица F описывает n наблюдений в пространстве k главных компонент. При этом элементы матрицы F нормированы, то есть: , а главные компоненты не коррелированы между собой. Из этого следует, что,
(1/n) FT F = E (3.5)
где,
– единичная матрица размерности (kk).
Выражение (3.5) может быть также представлено в виде:
(3.6)
С целью интерпретации элементов матрицы А, рассмотрим выражение для парного коэффициента корреляции, между Zj-переменной и, например, f1-й главной компонентой. Так как, zj и f1 нормированы, будем иметь с учетом (3.3.):
Принимая во внимание (3.6), окончательно получим:
Рассуждая аналогично, можно записать в общем виде:
(3.7)
для всех j=1,2, ... , k и =1,2, ... , k.
Таким образом, элемент ajv матрицы факторных нагрузок А, характеризует тесноту линейной связи между zj-исходной переменной и fv-й главной компонентой, то есть –1 aj +1.
Рассмотрим теперь выражение для дисперсии zj-й нормированной переменной. С учетом (3.3) будем иметь:
где , '=1,2, ... , k.
Учитывая (3.6), окончательно получим:
(3.8)
По условию переменные zj нормированы и sj2=1. Таким образом, дисперсия zj-й переменной согласно (3.8), представлена своими составляющими, определяющими долю вклада в нее всех k главных компонент.
Полный вклад -й главной компоненты в дисперсию всех k исходных признаков вычисляется по формуле:
(3.9)
Одно из основополагающих условий метода главных компонент, связано с представлением корреляционной матрицы R, через матрицу факторных нагрузок А. Подставив для этого (3.4) в (3.1), будем иметь:
R=(1/n)ZTZ=(1/n)(FAT)TFAT=A((1/n)FTF)AT.
Учитывая (3.5), окончательно получим:
(3.10)
Перейдем теперь непосредственно к отысканию собственных значений и собственных векторов корреляционной матрицы R.
Из линейной алгебры известно, что для любой симметрической матрицы R, всегда существует такая ортогональная матрица U, что выполняется условие:
UTRU= , (3.11)
где,
сти
(kk);
размерности
(kk).
Так как матрица R положительно определена, т.е. ее главные миноры положительны, то все собственные значения положительны – >0 для всех =1,2, ..., К.
В компонентном анализе элементы матрицы ранжированы 12... ...>0. Как будет показано ниже, собственное значение характеризует вклад -й главной компоненты в суммарную дисперсию исходного признакового пространства.
Таким образом, первая главная компонента вносит наибольший вклад в суммарную дисперсию, а последняя k-я – наименьший.
В ортогональной матрице U собственных векторов, -й столбец является собственным вектором, соответствующим -му значению.
Собственные значения 1...... находятся как корни характеристического уравнения:
/R- Е / = 0. (3.12)
Собственный вектор V, соответствующий собственному значению корреляционной матрицы R, определяется как отличное от нуля решение уравнения, которое следует из (3.11):
(R -Е)V=0. (3.13)
Нормированный собственный вектор U равен:
Из условия ортогональности матрицы U следует, что U-1=UТ, но тогда по определению матрицы R и подобны, так как они согласно (3.11) удовлетворяют условию:
U-1RU=.
Так как следы, т.е. суммы диагональных элементов у подобных матриц равны, то:
tr=tr(U-1RU)=tr[R(UU-1)]=trR.
Напомним из линейной алгебры, что умножение матрицы U на обратную матрицу U-1, дает единичную матрицу Е. Следы матричных произведений (U-1)(RU) и R(UU-1) также равны.
Учитывая, что сумма диагональных элементов матрицы R равна k, будем иметь:
tr=trR=k.
Таким образом,
(3.14 )
Покажем, что матрицу факторных нагрузок А можем представить в виде:
A=UA1/2. (3.15)
Для этого, умножив выражение (3.11)
Слева на U, а справа на UT, получим с учетом (3.10):
Учитывая, что UT=U и UUT=E имеем:
Из чего следует, что:
A=U
Рассмотрим -й столбец матрицы А:
А=U 1/2,
где U – собственный вектор матрицы R, соответствующий собственному значению .
Найдем норму вектора А:
/А/2=АТА=1/2UTU1/2=. (3.16)
Здесь учитывалось, что вектор U нормированный и UТU=1. Таким образом,
=
Сравнив полученный результат с (3.9), можно сделать вывод, что собственное значение характеризует вклад -й главной компоненты в суммарную дисперсию всех исходных признаков. Из (3.15) следует:
АTА= (3.17)
Согласно (3.14) общий вклад всех главных компонент в суммарную дисперсию равен k. Тогда удельный вклад -й главной компоненты определяется по формуле:
Суммарный вклад m первых главных компонент определяется из выражения:
Обычно для анализа используют m первых главных компонент, суммарный вклад которых превышает 60–70%.
Матрица факторных нагрузок А используется для экономической интерпретации главных компонент, которые представляют линейные функции исходных признаков. Для экономической интерпретации f используются лишь те xj, для которых, /аj/>0,5.
Значения главных компонент для каждого i-го объекта (i=1,2,...,n) задаются матрицей F.
Матрицу значений главных компонент можно получить из формулы:
Z=FAT,
откуда,
F=Z(AT)-1=ZU-1,
где,
F=
Z – матрица нормированных значений исходных показателей.
Уравнение регрессии на главных компонентах строится по алгоритму пошагового регрессионного анализа, где в качестве аргументов используются главные компоненты, а не исходные показатели. К достоинству последней модели следует отнести тот факт, что главные компоненты взаимно не коррелированы. При построении уравнений регрессии следует учитывать все главные компоненты.