Добавил:

Studfiles2 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный электротехнический университет "ЛЭТИ"

Предмет:

Анализ и интерпретация данных

Файл:

Презентации по курсу Анализ и интерпретация данных / Лекция Злобина.ppt

Скачиваний:

Добавлен:

01.05.2014

Размер:

101.89 Кб

Скачать

☆

МЕТОДЫ СНИЖЕНИЯ РАЗМЕРНОСТИ

2 основных подхода:

1.Отбор признаков по какому-либо критерию.

2.Построение новых линейных и нелинейных комбинаций.

Метод среднего

Строим функцию расстояния:

					1
r		r		r
dij	Mi		M j
		dijr
dcpr		i j			Nnap Cn2 ,	r 1 n
dcpr		Nnap			Nnap Cn2 ,	r 1 n
		Nnap

Признаки упорядочиваются по величине . Строится последовательность:

dcp1 dcp2 dcp3 ... dcpr

Метод дивергенции

Dij (

j )T 1 (

j )

(M r M r )

( ir )2

Обобщенно это можно рассматривать как

D r

Dijr cp N ij nap

Dcpi Dcp2 ... Dcpr

Выбираем группу по максимуму.

Метод Фишера

Берем следующую величину:

M r M r

F r i j

ir rj

ипо данной величине определяем разбиение на

классы.ij

Метод главных компонент

Мы строим новые последовательности множеств:

(х1,х2,х3,…,хn). (y1,y2,y3,…,yr); n r.

Строим новую систему координат таким образом, чтобы дисперсия данных была максимальной.

		M x x T
	В	анализ наших данных:

Для простоты считается , что =0 (этого можно добиться путем центрирования):

xH x 1 x

N x X

Первая главная компонента строится

y n				T	x
y n			C	T	x
		1
	C11						x1
C1						x
C1						x
	C						x
			1n				n
D y 1		M[ y2 ] M[(C1T x)(C1T x)T ] M[(C1T x)(xT C1 )] C1T M[xxT ]C1

D( y(1) ) C1T C1

Мы ищем главную компоненту. Сначала мы должны найти -которая дает


C	2	1	дисперсии, при условиях того, что:
C	2	1

max{C1T C1 }

C T C 1

1 1

Оптимизационная задача решается с помощью метода градиента.

Q C1T C1 [C1T C1 1]

c1 Q 2 C1 2 C1 0

C1 C1 0

( )C1 0

Из набора I мы должны взять число, которое дает нам максимум дисперсии.

1 C1 0
	C1 1

Следующий этап состоит в построении второй главной компоненты: она ищется из

y(2) C2T xгичного условия:


C2T C1 0	следующие:

C2T C2 1

Q C2T C2 2 (C2T C2 1) (C1T C2 )

C2 Q C2 2C2 12 C1 0

2 C2компонента0 определяется аналогично первой:2 ,C2

находим

В качестве	выбирается следующее поле , то
2		1
есть:
есть:
1 2 .... n
D[ y] CT C		D[ y i ] i
C C	D[ y] CT C CT C	D[ y i ] i

Как найти вектор y?

CT		C11	. .	C1n	построить матрицу:
	1
			. .
C2T		C21		C2n
C2T		C21		C2n
L
	.		. .
	.	.	. .	.
	T		. .
Cn		Cn1	. .	Cnn

	1	. 0
		.
y		.

0 .

D( y(1) ) D( y(2) ) ... D( y(n) ) i D(x1 ) ....D(xn )

i 1

Дальше можно поставить задачу выбора соответствующего количества признаков.


q(n )	D( y(1) )	.....D( yn )			.....	n
				1		n
	D(x )	D(x	)
	D(x )	D(x	)		.....		n
	1	n		1			n

Гдеn - количество признаков1 n n.

Задав определенный уровень, мы можем выбрать нужное количество компонентов.

Соседние файлы в папке Презентации по курсу Анализ и интерпретация данных

#
01.05.201488.06 Кб93лекция Белова.ppt
#
01.05.2014204.29 Кб89лекция Грачева.ppt
#
01.05.2014490.5 Кб88Лекция Грачева2.ppt
#
01.05.2014101.89 Кб87Лекция Злобина.ppt
#
01.05.2014171.52 Кб71Лекция Митягина.ppt
#
01.05.2014347.65 Кб74Лекция Митягина2.ppt
#
01.05.2014275.46 Кб75Лекция Моя.ppt
#
01.05.201447.1 Кб71лекция Филипповой.ppt
#
01.05.2014459.26 Кб70Лекция Филипповой2.ppt