Скачиваний:
87
Добавлен:
01.05.2014
Размер:
101.89 Кб
Скачать

МЕТОДЫ СНИЖЕНИЯ РАЗМЕРНОСТИ

2 основных подхода:

1.Отбор признаков по какому-либо критерию.

2.Построение новых линейных и нелинейных комбинаций.

Метод среднего

Строим функцию расстояния:

 

 

 

 

 

1

 

 

r

 

r

 

r

 

 

 

dij

Mi

M j

 

 

 

 

 

dijr

 

 

 

dcpr

 

i j

 

 

Nnap Cn2 ,

r 1 n

Nnap

 

 

 

 

 

Признаки упорядочиваются по величине . Строится последовательность:

dcp1 dcp2 dcp3 ... dcpr

 

 

 

 

 

 

Метод дивергенции

 

 

 

 

 

 

 

 

 

 

 

 

Dij (

 

i

 

 

j )T 1 (

 

i

 

j )

 

M

M

M

M

 

 

 

(M r M r )

 

Dr

 

 

 

i

 

 

j

 

 

 

 

 

 

 

 

 

 

 

 

 

ij

 

 

( ir )2

 

 

 

 

 

Обобщенно это можно рассматривать как

D r

Dijr cp N ij nap

Dcpi Dcp2 ... Dcpr

Выбираем группу по максимуму.

Метод Фишера

Берем следующую величину:

M r M r

F r i j

ir rj

ипо данной величине определяем разбиение на

классы.ij

Метод главных компонент

Мы строим новые последовательности множеств:

(х1,х2,х3,…,хn). (y1,y2,y3,…,yr); n r.

Строим новую систему координат таким образом, чтобы дисперсия данных была максимальной.

 

 

M x x T

 

 

В

анализ наших данных:

Для простоты считается , что =0 (этого можно добиться путем центрирования):

xH x 1 x

N x X

Первая главная компонента строится

y n

 

T

x

 

 

 

C

 

 

 

 

 

1

 

 

 

 

 

C11

 

 

x1

 

C1

 

 

 

 

 

x

 

 

 

 

 

 

 

 

C

 

 

x

 

 

 

 

1n

 

n

 

D y 1

M[ y2 ] M[(C1T x)(C1T x)T ] M[(C1T x)(xT C1 )] C1T M[xxT ]C1

D( y(1) ) C1T C1

Мы ищем главную компоненту. Сначала мы должны найти -которая дает

 

 

 

 

 

 

 

 

 

 

C

 

2

1

дисперсии, при условиях того, что:

 

 

 

 

 

max{C1T C1 }

C T C 1

1 1

Оптимизационная задача решается с помощью метода градиента.

Q C1T C1 [C1T C1 1]

c1 Q 2 C1 2 C1 0

C1 C1 0

( )C1 0

Из набора I мы должны взять число, которое дает нам максимум дисперсии.

1 C1 0

 

C1 1

 

Следующий этап состоит в построении второй главной компоненты: она ищется из

y(2) C2T xгичного условия:

 

 

 

C2T C1 0

следующие:

C2T C2 1

Q C2T C2 2 (C2T C2 1) (C1T C2 )

C2 Q C2 2C2 12 C1 0

2 C2компонента0 определяется аналогично первой:2 ,C2

находим

 

В качестве

выбирается следующее поле , то

 

2

 

1

 

есть:

 

 

 

 

 

 

 

 

1 2 .... n

 

 

 

 

D[ y] CT C

 

D[ y i ] i

 

 

C C

D[ y] CT C CT C

 

Как найти вектор y?

CT

C11

. .

C1n

построить матрицу:

 

1

 

 

 

 

 

 

. .

C2T

C21

C2n

 

L

 

 

 

 

 

 

 

 

.

 

. .

 

 

 

.

.

 

 

T

 

. .

 

 

Cn

 

Cn1

Cnn

 

 

 

 

 

 

 

 

 

1

. 0

 

 

 

 

 

 

.

 

 

 

y

 

 

 

 

0 .

n

n

D( y(1) ) D( y(2) ) ... D( y(n) ) i D(x1 ) ....D(xn )

i 1

Дальше можно поставить задачу выбора соответствующего количества признаков.

q(n )

D( y(1) )

.....D( yn )

 

 

.....

n

 

 

 

 

 

1

 

 

D(x )

D(x

)

 

 

 

 

 

.....

n

 

1

n

 

 

1

 

 

Гдеn - количество признаков1 n n.

Задав определенный уровень, мы можем выбрать нужное количество компонентов.