- •Обозначения
- •Классификация фактов (случаев)
- •Функции классификации
- •Расстояние Махалонобиса
- •Пошаговый дискриминантный анализ
- •Пошаговый анализ с включением
- •Пошаговый анализ с исключением
- •Разработка статистической модели данных
- •Напишем макрос, который заполнит таблицу с векторами
- •Подвергнем данные дискриминантному анализу
- •Теоретический расчет ошибок классификации для модели
Функции классификации
Функции классификации. Функции классификации предназначены для определения того, к какой группе наиболее вероятно может быть отнесен каждый объект. Имеется столько же функций классификации, сколько групп. Каждая функция позволяет вам для каждого образца и для каждой совокупности вычислить веса классификации по формуле:
Si = ci + wi1*x1 + wi2*x2 + ... + wim*xm
В этой формуле индекс i обозначает соответствующую совокупность, а индексы 1, 2, ..., m обозначают m переменных; ci являются константами для i-ой совокупности, wij - веса для j-ой переменной при вычислении показателя классификации для i-ой совокупности; xj - наблюдаемое значение для соответствующего образца j-ой переменной. Величина Si является результатом показателя классификации. Переменные с наибольшими регрессионными коэффициентами вносят наибольший вклад в дискриминацию
|
G_1:1 |
G_2:2 |
G_3:3 |
Длина чашелистика |
21,6680 |
15,7141 |
13,153 |
Ширина чашелистика |
24,5093 |
6,9262 |
3,159 |
Длина лепестка |
-13,4189 |
5,2140 |
11,668 |
Ширина лепестка |
-20,6124 |
6,9767 |
22,958 |
Constant |
-84,9980 |
-73,1145 |
-104,768 |
Расстояние Махалонобиса
В общем, расстояние Махаланобиса является мерой расстояния между двумя точками в пространстве, определяемым двумя или более коррелированными переменными. Например, если имеются всего две некоррелированных переменные, то можно нанести точки (образцы) на стандартную диаграмму рассеяния. Расстояние Махаланобиса между точками будет в этом случае равно расстоянию Евклида, т.е. расстоянию, измеренному, например, рулеткой. Если имеются три некоррелированные переменные, то для определения расстояния вы можно по-прежнему использовать рулетку (на 3М диаграмме). При наличии более трех переменных вы не можете более представить расстояние на диаграмме. Также и в случае, когда переменные коррелированы, то оси на графике могут рассматриваться как неортогональные (они уже не направлены под прямыми углами друг к другу). В этом случае простое определение расстояния Евклида не подходит, в то время как расстояние Махаланобиса является адекватно определенным в случае наличия корреляций.
Для каждой совокупности(класса) в выборке можно определить положение точки, представляющей средние для всех переменных в многомерном пространстве, определенном переменными рассматриваемой модели. Эти точки называются центроидами группы. Для каждого наблюдения вы можете затем вычислить его расстояние Махаланобиса от каждого центроида группы. Снова, вы признаете наблюдение принадлежащим к той группе, к которой он ближе, т.е. когда расстояние Махаланобиса до нее минимально
|
G_1:1 |
G_2:2 |
G_3:3 |
G_1:1 |
0,0000 |
90,13914 |
179,9831 |
G_2:2 |
90,1391 |
0,00000 |
17,3041 |
G_3:3 |
179,9831 |
17,30407 |
0,0000 |