- •«АНАЛИЗ И ИНТЕРПРЕТАЦИЯ ДАННЫХ»
- •Оценка качества классификации
- ••Так как решение принимается на основе одномерной величины U, то можно считать, что
- ••В редуцированном пространстве переходим к одномерным условным нормальным распределения величины U
- ••Прямое вычисление ошибок в многомерном пространстве приводит к техническим трудностям, поэтому и применяется
- •• Условные математические ожидании и дисперсии U по классам
- •Нахождении дисперсий данной величины
- ••U может принадлежать двум нормальным распределениям: U1 N( (½) , ); U2 N(-
- •- обобщенное расстояние между классами в N- мерном пространстве.
- •хорошо описывает статистическую природу данных.
- •• Построим вероятности ошибок классификации
- •Полная ошибка
- •• Рассмотрим α
- •Подбирая размерность пространства всегда можно добиться уменьшения ошибок (с ростом размерности ошибка падает).
«АНАЛИЗ И ИНТЕРПРЕТАЦИЯ ДАННЫХ»
Оценка качества классификации
Постникова О.Е. гр. 3341
Оценка качества классификации
• Рассмотрим случайную величину:
U xT 1 (M1 M2 ) 12 (M1 M2 )T 1 (M1 M2 )
являющейся значением решающей функции. Решение
принимаетсяq C(2сравнением/ 1) U с порогом
K 2
q1C(1 / 2)
•В исходной постановке задачи мы рассматривали многомерноеx X пространство
x Rn U R1
•Так как решение принимается на основе одномерной величины U, то можно считать, что задача классификации сводится к редукции пространства, то есть от n-мерного
пространства мы переходим к пространству R1
•В исходном пространстве условные плотности – многомерные нормальные распределения:
f (x / П1 ) |
f (x / П2 ) |
P(2 / 1) |
P(1/ 2) |
•В редуцированном пространстве переходим к одномерным условным нормальным распределения величины U
f (x / П1 ) f (U / П1 )
f (x / П2 ) f (U / П2 )
• т. е. каждому многомерному распределению соответствует одномерное.
ln K - пороговое значение
• Проблему принятия решения сводим к одномерной задаче. Ошибки классификации могут быть определены через
распределения U. |
C |
|
P(2 /1) f (U / П1 )dU |
P(1/ 2) f (U / П2 )dU |
|
C |
|
• C – порог
•Прямое вычисление ошибок в многомерном пространстве приводит к техническим трудностям, поэтому и применяется редукция пространства.
•Основная задача:
поиске распределений плотности вероятностей значений решающей функции U.
U - это линейная комбинация нормально распределенных величин, нормальная величина.
• Условные математические ожидании и дисперсии U по классам
|
MUi M U / Пi |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
x N(M1 , ) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
T |
|
1 |
(M1 |
M 2 ) |
1 |
(M1 |
M2 ) |
T |
|
1 |
(M1 |
|
|
|
|
|||||
|
MU1 M x |
|
|
2 |
|
|
|
M 2 ) |
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
M1T 1 (M1 |
M 2 ) |
1 (M1 M2 )T |
1 (M1 |
M 2 ) ... 1 |
(M1 M 2 )T 1 (M1 M 2 ) 1 |
|
||||||||||||||
|
где (M1 |
|
2 |
1 (M1 |
|
|
|
|
|
|
|
2 |
|
2 |
|
||||||
• |
M2 )T |
M2 ) |
|
- расстояние Махаланобиса |
|
||||||||||||||||
• |
Посчитаем |
MU 2 |
|
: |
x N (M 2 , ) |
|
|
||||||||||||||
• |
математические ожидания ошибок |
|
|
|
|||||||||||||||||
|
|
T |
|
1 |
(M1 |
M2 ) |
1 |
(M1 |
T |
|
1 |
(M1 |
|
|
|
|
|||||
|
MU2 M x |
|
|
2 |
M2 ) |
|
|
M2 ) |
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
M2T 1 (M1 |
M2 ) |
1 (M1 M2 )T 1 (M1 |
M2 ) ... 1 |
(M1 M2 )T 1 (M1 M2 ) |
1 |
|||||||||||||||
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
2 |
|
2 |
|
Нахождении дисперсий данной величины
DU1 M (U MU1 ) / П1
DU2 M (U MU2 ) / П2
•В предположении равенства матриц ковариации в исходном пространстве, получаем, что дисперсии U также равны по классам.
•Т.к. матрицы ковариации одинаковые, то можно сделать вывод: DU1 = DU2
•M{(V - MV)2} = M{(V - MV)T(V - MV)}
•D = (M1 - M2)Т∑-1(M1 - M2) = α = σ2 ,
•где α - расстояние Махаланобиса.
•U может принадлежать двум нормальным распределениям: U1 N( (½) , ); U2 N(- (½) , );
MU1 = (1/2)α
MU2 = -(1/2)α
MU1 – MU2 =
- обобщенное расстояние между классами в N- мерном пространстве.
= (M1 - M2)T -1(M1-M2)
• Если = I, то
= (M1 - M2)T(M1 - M2) = Σ(M1i - M2i)2 = ║M1 - M2║2 = d2
• Если матрица диагональная, но с разными , то:
|
|
|
|
2 |
0 |
|
|
|
|
|
1 |
|
|
|
|||
|
|
|
|
2 |
|
|
|
|
|
|
0 |
|
|
||||
|
|
|
n |
|
|
|
||
|
n |
|
|
i |
|
i |
2 |
|
|
|
M1 |
M 2 |
|
|
|||
|
|
|
|
|||||
|
|
i |
|
|
- сумма взвешенных расстояний по |
|||
• |
i 1 |
|
|
|
|
каждой координате
хорошо описывает статистическую природу данных.
= XT -1(M1 - M2) – (½) (M1 + M2)T -1(M1 - M2)
•M{U/1} = (1/2) = (M1 - M2)T -1(M1 - M2)
•M{U/2} = -(1/2)
•D[U] = M[(U - MU)2] = M[(U - MU)T(U - MU)]
•D[U] =
n2 =