Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
BM_R3.DOC
Скачиваний:
0
Добавлен:
25.11.2019
Размер:
333.31 Кб
Скачать

3. Компонентный анализ Для замечаний

3. Компонентный и факторный анализ

3.1. Основы компонентного анализа

Компонентный анализ предназначен для преобразования системы k исходных признаков, в систему k новых показателей (главных компонент). Главные компоненты не коррелированны между собой и упорядочены по величине их дисперсий, причем, первая главная компонента, имеет наибольшую дисперсию, а последняя, k-я, наименьшую. При этом выявляются неявные, непосредственно не измеряемые, но объективно существующие закономерности, обусловленные действием как внутренних, так и внешних причин.

Компонентный анализ является одним из основных методов факторного анализа. В задачах снижения размерности и классификации обычно используются m первых компонент (m< k).

При наличии результативного показателя может быть построено уравнение регрессии на главных компонентах.

На основании матрицы исходных данных:

Х=

размерности (nk) , где xij – значение j-го показателя у i-го наблюдения (i=1,2,...,n; j=1,2,...,k) вычисляют средние значения показателей , а также s1, ..., sk и матрицу нормированных значений:

Z=

с элементами:

zij= .

Рассчитывается матрица парных коэффициентов корреляции:

R= ZTZ (3.1)

с элементами:

rjl= = (3.2)

где, j,1 = 1,2, ..., k.

На главной диагонали матрицы R, т.е. при j=l,

.

Модель компонентного анализа имеет вид:

(3.3)

где:

ai – “вес”, факторная нагрузка, -ой главной компоненты на j-ой переменной;

fi – значение -й главной компоненты для i-го наблюдения (объекта), где =1,2, ... ,k.

В матричной форме модель (3.3) имеет вид:

Z = F AT (3.4)

где:

сти (nk);

– матрица значений главных компонент размерно-

– матрица факторных нагрузок размерности (kk).

АТ – транспонированная матрица А;

fi – значение -й главной компоненты у i-го наблюдения (объекта);

aj – значение факторной нагрузки -й главной компоненты на j-й переменной.

Матрица F описывает n наблюдений в пространстве k главных компонент. При этом элементы матрицы F нормированы, то есть: , а главные компоненты не коррелированы между собой. Из этого следует, что,

(1/n) FT F = E (3.5)

где,

– единичная матрица размерности (kk).

Выражение (3.5) может быть также представлено в виде:

(3.6)

С целью интерпретации элементов матрицы А, рассмотрим выражение для парного коэффициента корреляции, между Zj-переменной и, например, f1-й главной компонентой. Так как, zj и f1 нормированы, будем иметь с учетом (3.3.):

Принимая во внимание (3.6), окончательно получим:

Рассуждая аналогично, можно записать в общем виде:

(3.7)

для всех j=1,2, ... , k и =1,2, ... , k.

Таким образом, элемент ajv матрицы факторных нагрузок А, характеризует тесноту линейной связи между zj-исходной переменной и fv-й главной компонентой, то есть –1  aj  +1.

Рассмотрим теперь выражение для дисперсии zj-й нормированной переменной. С учетом (3.3) будем иметь:

где , '=1,2, ... , k.

Учитывая (3.6), окончательно получим:

(3.8)

По условию переменные zj нормированы и sj2=1. Таким образом, дисперсия zj-й переменной согласно (3.8), представлена своими составляющими, определяющими долю вклада в нее всех k главных компонент.

Полный вклад -й главной компоненты в дисперсию всех k исходных признаков вычисляется по формуле:

(3.9)

Одно из основополагающих условий метода главных компонент, связано с представлением корреляционной матрицы R, через матрицу факторных нагрузок А. Подставив для этого (3.4) в (3.1), будем иметь:

R=(1/n)ZTZ=(1/n)(FAT)TFAT=A((1/n)FTF)AT.

Учитывая (3.5), окончательно получим:

(3.10)

Перейдем теперь непосредственно к отысканию собственных значений и собственных векторов корреляционной матрицы R.

Из линейной алгебры известно, что для любой симметрической матрицы R, всегда существует такая ортогональная матрица U, что выполняется условие:

UTRU= , (3.11)

где,

сти (kk);

– диагональная матрица собственных значений размерно-

размерности (kk).

– ортогональная матрица собственных векторов

Так как матрица R положительно определена, т.е. ее главные миноры положительны, то все собственные значения положительны – >0 для всех =1,2, ..., К.

В компонентном анализе элементы матрицы  ранжированы 12... ...>0. Как будет показано ниже, собственное значение  характеризует вклад -й главной компоненты в суммарную дисперсию исходного признакового пространства.

Таким образом, первая главная компонента вносит наибольший вклад в суммарную дисперсию, а последняя k-я – наименьший.

В ортогональной матрице U собственных векторов, -й столбец является собственным вектором, соответствующим -му значению.

Собственные значения 1...... находятся как корни характеристического уравнения:

/R- Е / = 0. (3.12)

Собственный вектор V, соответствующий собственному значению  корреляционной матрицы R, определяется как отличное от нуля решение уравнения, которое следует из (3.11):

(R -Е)V=0. (3.13)

Нормированный собственный вектор U равен:

Из условия ортогональности матрицы U следует, что U-1=UТ, но тогда по определению матрицы R и  подобны, так как они согласно (3.11) удовлетворяют условию:

U-1RU=.

Так как следы, т.е. суммы диагональных элементов у подобных матриц равны, то:

tr=tr(U-1RU)=tr[R(UU-1)]=trR.

Напомним из линейной алгебры, что умножение матрицы U на обратную матрицу U-1, дает единичную матрицу Е. Следы матричных произведений (U-1)(RU) и R(UU-1) также равны.

Учитывая, что сумма диагональных элементов матрицы R равна k, будем иметь:

tr=trR=k.

Таким образом,

(3.14 )

Покажем, что матрицу факторных нагрузок А можем представить в виде:

A=UA1/2. (3.15)

Для этого, умножив выражение (3.11)

Слева на U, а справа на UT, получим с учетом (3.10):

Учитывая, что UT=U и UUT=E имеем:

Из чего следует, что:

A=U

Рассмотрим -й столбец матрицы А:

А=U 1/2,

где U – собственный вектор матрицы R, соответствующий собственному значению .

Найдем норму вектора А:

/2=АТА=1/2UTU1/2=. (3.16)

Здесь учитывалось, что вектор U нормированный и UТU=1. Таким образом,

=

Сравнив полученный результат с (3.9), можно сделать вывод, что собственное значение  характеризует вклад -й главной компоненты в суммарную дисперсию всех исходных признаков. Из (3.15) следует:

АTА= (3.17)

Согласно (3.14) общий вклад всех главных компонент в суммарную дисперсию равен k. Тогда удельный вклад -й главной компоненты определяется по формуле:

Суммарный вклад m первых главных компонент определяется из выражения:

Обычно для анализа используют m первых главных компонент, суммарный вклад которых превышает 60–70%.

Матрица факторных нагрузок А используется для экономической интерпретации главных компонент, которые представляют линейные функции исходных признаков. Для экономической интерпретации f используются лишь те xj, для которых, /аj/>0,5.

Значения главных компонент для каждого i-го объекта (i=1,2,...,n) задаются матрицей F.

Матрицу значений главных компонент можно получить из формулы:

Z=FAT,

откуда,

F=Z(AT)-1=ZU-1,

где,

F=

Z – матрица нормированных значений исходных показателей.

Уравнение регрессии на главных компонентах строится по алгоритму пошагового регрессионного анализа, где в качестве аргументов используются главные компоненты, а не исходные показатели. К достоинству последней модели следует отнести тот факт, что главные компоненты взаимно не коррелированы. При построении уравнений регрессии следует учитывать все главные компоненты.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]