МЕТОДЫ СНИЖЕНИЯ РАЗМЕРНОСТИ
2 основных подхода:
1.Отбор признаков по какому-либо критерию.
2.Построение новых линейных и нелинейных комбинаций.
Метод среднего
Строим функцию расстояния:
|
|
|
|
|
1 |
|
|
|
r |
|
r |
|
r |
|
|
|
|
dij |
Mi |
M j |
|
|
|
|||
|
|
dijr |
|
|
|
|||
dcpr |
|
i j |
|
|
Nnap Cn2 , |
r 1 n |
||
Nnap |
||||||||
|
|
|
|
|
Признаки упорядочиваются по величине . Строится последовательность:
dcp1 dcp2 dcp3 ... dcpr
|
|
|
|
|
|
Метод дивергенции |
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
||
Dij ( |
|
i |
|
|
j )T 1 ( |
|
i |
|
j ) |
|
|||
M |
M |
M |
M |
|
|||||||||
|
|
(M r M r ) |
|
||||||||||
Dr |
|
|
|
i |
|
|
j |
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
||
ij |
|
|
( ir )2 |
|
|||||||||
|
|
|
|
Обобщенно это можно рассматривать как
D r
Dijr cp N ij nap
Dcpi Dcp2 ... Dcpr
Выбираем группу по максимуму.
Метод Фишера
Берем следующую величину:
M r M r
F r i j
ir rj
ипо данной величине определяем разбиение на
классы.ij
Метод главных компонент
Мы строим новые последовательности множеств:
(х1,х2,х3,…,хn). (y1,y2,y3,…,yr); n r.
Строим новую систему координат таким образом, чтобы дисперсия данных была максимальной.
|
|
M x x T |
|
|
В |
анализ наших данных: |
Для простоты считается , что =0 (этого можно добиться путем центрирования):
xH x 1 x
N x X
Первая главная компонента строится
y n |
|
T |
x |
|
|
|
||
C |
|
|
|
|||||
|
|
1 |
|
|
|
|
||
|
C11 |
|
|
x1 |
|
|||
C1 |
|
|
|
|
|
x |
|
|
|
|
|
|
|
||||
|
C |
|
|
x |
|
|||
|
|
|
1n |
|
n |
|
||
D y 1 |
M[ y2 ] M[(C1T x)(C1T x)T ] M[(C1T x)(xT C1 )] C1T M[xxT ]C1 |
D( y(1) ) C1T C1
Мы ищем главную компоненту. Сначала мы должны найти -которая дает
|
|
|
|
|
|
|
|
|
|
C |
|
2 |
1 |
дисперсии, при условиях того, что: |
|
|
|
|
|
|
max{C1T C1 }
C T C 1
1 1
Оптимизационная задача решается с помощью метода градиента.
Q C1T C1 [C1T C1 1]
c1 Q 2 C1 2 C1 0
C1 C1 0
( )C1 0
Из набора I мы должны взять число, которое дает нам максимум дисперсии.
1 C1 0 |
|
|
C1 1 |
|
Следующий этап состоит в построении второй главной компоненты: она ищется из
y(2) C2T xгичного условия:
|
|
|
C2T C1 0 |
следующие: |
C2T C2 1
Q C2T C2 2 (C2T C2 1) (C1T C2 )
C2 Q C2 2C2 12 C1 0
2 C2компонента0 определяется аналогично первой:2 ,C2
находим
|
В качестве |
выбирается следующее поле , то |
||
|
2 |
|
1 |
|
|
есть: |
|
|
|
|
|
|
|
|
|
1 2 .... n |
|
|
|
|
D[ y] CT C |
|
D[ y i ] i |
|
|
C C |
D[ y] CT C CT C |
|
Как найти вектор y?
CT |
C11 |
. . |
C1n |
построить матрицу: |
||||
|
1 |
|
|
|
|
|
||
|
. . |
|||||||
C2T |
C21 |
C2n |
||||||
|
||||||||
L |
|
|
|
|
|
|
|
|
|
. |
|
. . |
|
||||
|
|
. |
. |
|
||||
|
T |
|
. . |
|
|
|||
Cn |
|
Cn1 |
Cnn |
|
||||
|
|
|
|
|
|
|
||
|
1 |
. 0 |
|
|
|
|||
|
|
|
. |
|
|
|
||
y |
|
|
|
|
0 .
n
n
D( y(1) ) D( y(2) ) ... D( y(n) ) i D(x1 ) ....D(xn )
i 1
Дальше можно поставить задачу выбора соответствующего количества признаков.
q(n ) |
D( y(1) ) |
.....D( yn ) |
|
|
..... |
n |
|
||
|
|
|
|
1 |
|
|
|||
D(x ) |
D(x |
) |
|
|
|
||||
|
|
..... |
n |
||||||
|
1 |
n |
|
|
1 |
|
|
Гдеn - количество признаков1 n n.
Задав определенный уровень, мы можем выбрать нужное количество компонентов.