Скачиваний:
108
Добавлен:
01.05.2014
Размер:
4.12 Mб
Скачать

4.11. Множественный дискриминантный анализ

Для задачи с с классами естественное обобщение линейного дискриминанта Фишера включает с1 разделяющих функций. Таким образом, проекция будет из d-мерного пространства на 1)-мерное пространство, причем принимается, что dc. Обоб­щение для матрицы разброса внутри класса очевидное:

(81)

где, как и прежде,

(82)

и

(83)

Соответствующее обобщение для не так очевидно. Предполо­жим, что мы определяем полный вектор средних значений m и полную матрицу разброса посредством

(84)

и

(85)

Отсюда следует, что

Естественно определять этот второй член как матрицу разброса между классами, так что полный разброс есть сумма разброса внутри класса и разброса между классами:

(86)

и

= + . (87)

В случае с двумя классами мы обнаружим, что полученная в ре­зультате матрица разброса между классами будет в п1п2/п раз боль­ше нашего предыдущего определения. Мы могли бы переопределить для случая с двумя классами, чтобы добиться полного согласо­вания, но вспомнив замечание Эмерсона о том, что бессмысленное согласование—идол недалеких умов, пойдем дальше.

Проекция из d-мерного пространства в (с—1)-мерное пространст­во осуществляется с помощью с1 разделяющих функций

i=1, . . . , с1 (88)

Если считать составляющими вектора у, а векторы весовых функций wi столбцами матрицы W размера dx (с—1), то проекцию можно записать в виде одного матричного уравнения

. (89)

Выборки x1, . . ., хn проецируются на соответствующее множе­ство выборок y1, . . ., yn которые можно описать с помощью их векторов средних значений и матриц разброса. Так, если мы опре­деляем

(90)

(91)

(92)

и

(93)

то можно непосредственно получить

(94)

(94)

Эти уравнения показывают, как матрицы разброса внутри класса и между классами отображаются посредством проекции в простран­ство меньшей размерности. Мы ищем матрицу отображения W,

которая в некотором смысле максимизирует отношение разброса между классами к разбросу внутри класса. Простым скалярным показателем разброса является определитель матрицы разброса. Определитель есть произведение собственных значений, а следова­тельно, и произведение «дисперсий» в основных направлениях, измеряющее объем гиперэллипсоида разброса. Пользуясь этим пока­зателем, получим функцию критерия

(96)

Задача нахождения прямоугольной матрицы W, которая мак­симизирует J, не из легких. К счастью, оказывается, что ее решение имеет относительно простой вид 8.Столбцы оптимальной матрицы W являются обобщенными собственными векторами, соответству­ющими наибольшим собственным значениям в

(97)

Следует сделать несколько замечаний относительно этого реше­ния. Во-первых, если невырожденная матрица, то задачу, как и прежде, можно свести к обычной задаче определения собст­венного значения. Однако в действительности это нежелательно, так как при этом потребуется ненужное вычисление матрицы, обратной . Вместо этого можно найти собственные значения как корни характеристического полинома

,

а затем решить

непосредственно для собственных векторов wi. Поскольку яв­ляется суммой с матриц ранга единица или менее и поскольку только с—1 из них независимые матрицы, имеет ранг с1 или меньше. Так что не более с1 собственных значений не нули и искомые век­торы весовых функций соответствуют этим ненулевым собственным значениям. Если разброс внутри класса изотропный, собственные векторы будут просто собственными векторами матрицы , а соб­ственные векторы с ненулевыми собственными значениями стягива­ют пространство, натянутое на векторы mim. В этом частном слу­чае столбцы матрицы W можно найти, просто применяя процедуру ортонормирования Грама — Шмидта к с1 векторам mi. Наконец, заметим, что, вообще говоря, решение для W не является однознач­ным. Допустимые преобразования включают вращение и масштаби­рование осей различными путями. Это все линейные преобразования из (с—1)-мерного пространства в 1)-мерное пространство, и они не меняют значительно положения вещей. В частности, они остав­ляют функцию критерия J(W) инвариантной.

Как и в случае с двумя классами, множественный дискриминантный анализ в первую очередь позволяет сократить размерность за­дачи. Параметрические или непараметрические методы, которые могут не сработать в первоначальном (многомерном) пространстве, могут хорошо действовать в пространстве меньшей размерности. В частности, можно будет оценить отдельные ковариационные мат­рицы для каждого класса и использовать допущение об общем многомерном нормальном распределении после преобразования, что было невозможно сделать с первоначальными данными. Вообще преобразование влечет за собой некоторое ненужное перемешивание данных и повышает теоретически достижимый уровень ошибки, а проблема классификации данных все еще остается. Существуют другие пути уменьшения размерности данных, и мы вернемся к этой теме в гл. 6. Существуют также другие методы дискриминантного анализа; некоторые из них упоминаются в литературе к этой главе. Одним из самых фундаментальных и наиболее широко используе­мых методов все же остается метод Фишера.

Соседние файлы в папке Анализ и интерпретация данных