ФАКТОРНЫЙ АНАЛИЗ

Структура факторных уравнений

Часто для наглядности факторные уравнения изображаются в виде структуры

Главной задачей факторного анализа является определение матрицы A факторных нагрузок на основе данного

Добавил:

Studfiles2 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный электротехнический университет "ЛЭТИ"

Предмет:

Анализ и интерпретация данных

Файл:

Презентации по курсу Анализ и интерпретация данных / Лекция Грачева2.ppt

Скачиваний:

Добавлен:

01.05.2014

Размер:

490.5 Кб

Скачать

☆

1 / 21 2 > Следующая >>>

Модель факторного анализа

Рассмотрим корреляционную матрицу R, полученную из матрицы данных X, и рассмотрим несколько признаков. Наличие корреляции между ними можно понимать двояко: либо один из них определяет остальные, либо существует некоторый скрытый признак, не включенный в матрицу данных, оказывающий влияние на коррелированные признаки. Такие скрытые признаки называют общими факторами.

Основное предположение факторного анализа состоит в следующем: признаки из матрицы данных можно описать посредством небольшого числа общих факторов. Другими словами, сложные взаимосвязи между признаками определяются относительно более простой, скрытой за внешними проявлениями, структурой, отражающей наиболее характерные и часто повторяющиеся взаимосвязи

Следовательно, предполагается, что каждый признак	X j является функцией небольшого числа общих факторов
F1,... Fm и характерного фактора Z j ,то есть	X j	F1,... Fm , Z j , где каждый из общих факторов
Fi, i 1, ...m оказывает влияние на все признаки		X j , j 1,... n а характерный фактор Z j
влияет только на признак X j

Характерный фактор выражает специфичность признака, которая не зависит от общих факторов и не выражается через них.

В различных факторных моделях по-разному объясняется специфичность и накладываются различные ограничения на общие факторы.

Часто задача факторного анализа понимается как задача аппроксимации большой матрицы корреляций признаков меньшей матрицей факторных нагрузок или как задача аппроксимации матрицы исходных данных матрицей значений факторов на объектах. При таком подходе появляется возможность оценить как точность получаемого описания исходных данных, так и выигрыш, полученный при сжатии описания.

Предполагается, что факторная модель является линейной, т.е.
	m
X j	ajk Fk djZ j ,где
	k 1
X j	x1 j ,... xN j T	- исходный j-й признак, измеренный на N объектах;
Fk	f1k ,... fNk T	- скрытый k-й фактор, принимающий значения на N объектах;
Z j	z1 j ,...zNj T	.
Z j	z1 j ,...zNj T	- характерный фактор;
ajk , j 1,... n, k 1,... m		- факторные нагрузки, характеризующие влияние k-го фактора на j-й признак,
		где n- число исходных признаков m- число общих	m n
составляющие матрицу A n m факторов,			m n

Такую систему линейных уравнений называют факторным отображением, а факторные нагрузки - его элементами.

Рассмотрим содержательный смысл такой модели. Пусть признак X j измерен на i-ом объекте, т.е.
m
xi j ajk fik	djzi j

k 1

Рассмотрим психологический эксперимент, состоящий в выполнении испытуемыми ряда тестов. Тогда совокупность тестов образует совокупность исходных признаков. Значениями таких признаков на объектах являются оценки, получаемые испытуемыми за выполнение тестов. Рабочая гипотеза состоит в том, что индивидуальная оценка теста определяется:

а) способностями, необходимыми для его выполнения;

б) степенью выраженности этих способностей у данных испытуемых.


Если предположить, что способности - это общие некоррелированные факторы, то линейная модель интерпретируется
следующим образом. Согласно формуле,
xi j - оценка человека i при выполнении теста j;
fik	- степень выраженности у человека i способности k (значение k-го фактора на i объекте);
aj k	- степень проявления k способности в j-ом тесте (нагрузка k-го фактора в j тесте).
Если предположить, что k способность является решающей при выполнении j теста, то нагрузка aj k
будет положительной и высокой. Если одновременно человек			i в достаточной степени наделен этой способностью,
то значение		fik будет также положительным и большим, а произведение ajk fik внесет существенный вклад
в хорошую оценку выполнения теста.

Если предположить, что k способность совершенно не нужна при выполнении теста, то нагрузка aj k будет нулевой. Если даже человек i щедро одарен этой способностью (значение fik положительно и велико), произведение ajk fik будет нулевым. Это означает, что для данного человека и данного теста эта способность не влияет на оценку теста.

Предположение о линейности факторной модели является сильным упрощением реальных взаимодействий. Тем не менее, такая модель экономична и часто является хорошим первым приближением реальных процессов.

Рассмотрим снова факторное отображение X j ajk Fk

d jZ j

и вычислим корреляции признака

X j с факторами

F , k 1, m

Z j

k 1

Получим:

r X j , Fk

FT F

Z T F a

r F ,F

d r

ajsFs djZ j

X j

j k

js s k

N s 1

s 1

r X j , Z j

ajs

FsT

Z j dj

Z Tj

Z j ajsr Fs, Z j dj

X Tj Z j

ajsFs djZ j

Z j

s 1

Такая система равенств называется факторной структурой, а ее левые части

r X j , Fk , r X j , Z j , j 1,... n, k 1,... m - ее элементами. Если общие факторы не коррелируют между собой

и с характерными факторами , то элементы факторной структуры совпадают с элементами факторного отображения
r X j , FK a jk	r X j , Z j dj		X j через элементы факторного отображения в предположении, что все
Выразим структуру дисперсии признака
факторы и признаки F , k 1,... m, Z		j	, X	j	, j 1,... n	стандартизированы:
	k

rj j r X j

,X j

2j 1

X Tj

X j

ajk Fk djZ j ajk Fk djZ j

k 1

ajk

ajs

FkT Fs dj ajk

FkT Z j dj ajk

Z Tj Fk d2j

Z Tj Z j

k 1

s 1

k 1

m 1

a2jk 2 ajk ajsr Fk ,Fs

dj ajk r Fk , Z j dj ajk r Z j , Fk d2j

k 1

k 1 s k 1

k 1

m 1

a2jk d2j 2 ajk ajsr Fk , Fs 2d j ajk r Fk , Z j

k 1

k 1 s k 1

k 1

Если общие факторы не коррелируют между собой и с характерными факторами, то m

2j 1 a2jk d2j h2j d2j

k 1

Величина h2j - доля дисперсии признака, приходящаяся на m общих факторов, называется общностью. Величина d2j определяет вклад характерного фактора в дисперсию признака и называется характерностью.

диагональная матрица нагрузок характерных факторов.

Пусть X, F, Z - стандартизованные матрицы. Тогда линейная факторная модель запишется в виде системы уравнений

X X1,... X n

a1k Fk d1Z1,... ank Fk dnZ n

k 1

d1Z1,... dnZ n

a1k Fk ,... ank Fk

k 1

a1k f1k

ank

f1k

d z

k 1

1 11

n 1n

a1k fNk

ank fNk

d1zN1

dn zNn

k 1

an1

z11

z1n d1

anm

zN1

aNn 0

	1 n		1 m			1 n		1 n		1 n
1		1			1		1		1
	X		F					Z		D

						AT
						AT
N		N		m			N		n
				m					n

Заметим, что, вводя ранее линейную факторную модель, мы показали, что факторная структура совпадает с факторным отображением, а дисперсии признаков выражаются через общности и характерности лишь в предположении, что являются некоррелированными как общие факторы между собой, так и общие и характерные факторы друг с другом. В этом случае матрица факторных нагрузок A вычисляется как матрица взаимных корреляций исходных признаков и общих факторов:

FAT ZD

XT F

AFT F

DT ZT F A

Вычислим корреляционную матрицу

XT X

FAT ZD

FAT

AFT DT ZT

FAT ZD

AFT FAT DT ZT FA AFT ZD DT ZT ZD AAT 0 0

DT ZT ZD

AAT

DT ZT ZD

Пусть X N n

- матрица данных, F N m

- матрица значений общих факторов,

- матрица факторных нагрузок D n n

матрица значений характерных факторов,

разложения корреляционной матрицы R. Заметим, что пока мы не делали никаких предположений о

коррелированности характерных факторов между собой. Поэтому в общем случае

является корреляционной матрицей с ненулевыми недиагональными элементами. Так как матрица D является

диагональной, то DT D D2 ,а диагональные элементы матриц

DT ZT ZD и D2

совпадают. Тогда:

R AA

ZD D

R D

ZD D

AAT

называется редуцированной корреляционной матрицей.

Так как диагональные элементы матрицы

DT ZT ZD D2

равны нулю, то полный вклад всех факторов в

дисперсии всех признаков составляет величину

a12k d12

a1k ank

k 1

2j trR tr

D2 tr AAT D2

j 1

ank a1k

ank2 dn2

k 1

a2jk

d2j

h2j

d2j h2j

d2j

j 1

k 1

j 1

n	n
Отсюда легко выразить общности через характерности h2j	n d2j
j 1	j 1

В уравнении разложения матрицы R неизвестными являются матрицы A, D, Z. Если число общих факторов не известно, то можно решать задачу факторного анализа как поиск матрицы A с одновременным поиском набора минимальных в некотором смысле характерностей с целью максимизации доли объясняемой общими факторами дисперсии признаков. Из такой постановки с необходимостью следует коррелированность характерных факторов между собой.

С другой стороны, предположение о некоррелированности характерных факторов между собой приводит к более
простому разложению	R AAT D2

и к необходимости предварительного задания характерностей. В этом случае определение характерностей
является самостоятельной задачей. Исторически более ранней является именно такая постановка.
Рассмотрим матрицу						Y FAT			размером N n линейных комбинаций общих факторов и назовем ее матрицей
вычисленных признаков. Так как матрица Y не стандартизована, то вычислим ковариационную матрицу
1		1		FAT	T	1

		YT Y				FAT		AFT FAT AAT R
	N		N				N
Следовательно, дисперсии вычисленных признаков совпадают с общностями исходных признаков 2 Y j h2j

стоят общности исходных признаков.

так как на диагонали редуцированной матрицы

Рассмотрим взаимные ковариации вычисленных и исходных признаков

FAT ZD

FAT

AFT DT ZT FAT

AFT FAT

DT ZT FAT AAT R

Тогда

X j ,Y j h2j X j Y j r X j ,Y j 1 hj r X j ,Y j ,откуда

r X j ,Y j

X j ,Y j / hj hj

r2 X j ,Y j h2j

X j ,Y j

Следовательно, взаимная ковариация вычисленного и соответствующего исходного признаков равна квадрату их коэффициента корреляции и совпадает с общностью исходного признака. В свою очередь, взаимные ковариации вычисленных признаков и факторов составляют матрицу

N1 YT F N1 FAT T F N1 AFT F A

1 / 21 2 > Следующая >>>

Соседние файлы в папке Презентации по курсу Анализ и интерпретация данных

#
01.05.201488.06 Кб93лекция Белова.ppt
#
01.05.2014204.29 Кб89лекция Грачева.ppt
#
01.05.2014490.5 Кб89Лекция Грачева2.ppt
#
01.05.2014101.89 Кб87Лекция Злобина.ppt
#
01.05.2014171.52 Кб71Лекция Митягина.ppt
#
01.05.2014347.65 Кб74Лекция Митягина2.ppt
#
01.05.2014275.46 Кб75Лекция Моя.ppt
#
01.05.201447.1 Кб71лекция Филипповой.ppt