Добавил:

Studfiles2 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный электротехнический университет "ЛЭТИ"

Предмет:

Анализ и интерпретация данных

Файл:

Анализ и интерпретация данных / Глава_4.doc

Скачиваний:

108

Добавлен:

01.05.2014

Размер:

4.12 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 1213 / 1413 14 > Следующая >>>

4.11. Множественный дискриминантный анализ

Для задачи с с классами естественное обобщение линейного дискриминанта Фишера включает с—1 разделяющих функций. Таким образом, проекция будет из d-мерного пространства на (с—1)-мерное пространство, причем принимается, что dc. Обобщение для матрицы разброса внутри класса очевидное:

(81)

где, как и прежде,

(82)

(83)

Соответствующее обобщение для не так очевидно. Предположим, что мы определяем полный вектор средних значений m и полную матрицу разброса посредством

(84)

(85)

Отсюда следует, что

Естественно определять этот второй член как матрицу разброса между классами, так что полный разброс есть сумма разброса внутри класса и разброса между классами:

(86)

= + . (87)

В случае с двумя классами мы обнаружим, что полученная в результате матрица разброса между классами будет в п₁п₂/п раз больше нашего предыдущего определения. Мы могли бы переопределить для случая с двумя классами, чтобы добиться полного согласования, но вспомнив замечание Эмерсона о том, что бессмысленное согласование—идол недалеких умов, пойдем дальше.

Проекция из d-мерного пространства в (с—1)-мерное пространство осуществляется с помощью с—1 разделяющих функций

i=1, . . . , с—1 (88)

Если считать составляющими вектора у, а векторы весовых функций w_i столбцами матрицы W размера dx (с—1), то проекцию можно записать в виде одного матричного уравнения

. (89)

Выборки x₁, . . ., х_n проецируются на соответствующее множество выборок y₁, . . ., y_n которые можно описать с помощью их векторов средних значений и матриц разброса. Так, если мы определяем

(90)

(91)

(92)

(93)

то можно непосредственно получить

(94)

Эти уравнения показывают, как матрицы разброса внутри класса и между классами отображаются посредством проекции в пространство меньшей размерности. Мы ищем матрицу отображения W,

которая в некотором смысле максимизирует отношение разброса между классами к разбросу внутри класса. Простым скалярным показателем разброса является определитель матрицы разброса. Определитель есть произведение собственных значений, а следовательно, и произведение «дисперсий» в основных направлениях, измеряющее объем гиперэллипсоида разброса. Пользуясь этим показателем, получим функцию критерия

(96)

Задача нахождения прямоугольной матрицы W, которая максимизирует J, не из легких. К счастью, оказывается, что ее решение имеет относительно простой вид ^⁸.Столбцы оптимальной матрицы W являются обобщенными собственными векторами, соответствующими наибольшим собственным значениям в

(97)

Следует сделать несколько замечаний относительно этого решения. Во-первых, если — невырожденная матрица, то задачу, как и прежде, можно свести к обычной задаче определения собственного значения. Однако в действительности это нежелательно, так как при этом потребуется ненужное вычисление матрицы, обратной . Вместо этого можно найти собственные значения как корни характеристического полинома

а затем решить

непосредственно для собственных векторов w_i. Поскольку является суммой с матриц ранга единица или менее и поскольку только с—1 из них независимые матрицы, имеет ранг с—1 или меньше. Так что не более с—1 собственных значений не нули и искомые векторы весовых функций соответствуют этим ненулевым собственным значениям. Если разброс внутри класса изотропный, собственные векторы будут просто собственными векторами матрицы , а собственные векторы с ненулевыми собственными значениями стягивают пространство, натянутое на векторы m_i—m. В этом частном случае столбцы матрицы W можно найти, просто применяя процедуру ортонормирования Грама — Шмидта к с—1 векторам m_i. Наконец, заметим, что, вообще говоря, решение для W не является однозначным. Допустимые преобразования включают вращение и масштабирование осей различными путями. Это все линейные преобразования из (с—1)-мерного пространства в (с—1)-мерное пространство, и они не меняют значительно положения вещей. В частности, они оставляют функцию критерия J(W) инвариантной.

Как и в случае с двумя классами, множественный дискриминантный анализ в первую очередь позволяет сократить размерность задачи. Параметрические или непараметрические методы, которые могут не сработать в первоначальном (многомерном) пространстве, могут хорошо действовать в пространстве меньшей размерности. В частности, можно будет оценить отдельные ковариационные матрицы для каждого класса и использовать допущение об общем многомерном нормальном распределении после преобразования, что было невозможно сделать с первоначальными данными. Вообще преобразование влечет за собой некоторое ненужное перемешивание данных и повышает теоретически достижимый уровень ошибки, а проблема классификации данных все еще остается. Существуют другие пути уменьшения размерности данных, и мы вернемся к этой теме в гл. 6. Существуют также другие методы дискриминантного анализа; некоторые из них упоминаются в литературе к этой главе. Одним из самых фундаментальных и наиболее широко используемых методов все же остается метод Фишера.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 1213 / 1413 14 > Следующая >>>

Соседние файлы в папке Анализ и интерпретация данных

#
01.05.20142.53 Mб114Глава_3.doc
#
01.05.20144.12 Mб108Глава_4.doc
#
01.05.20142.76 Mб106Глава_5.DOC
#
01.05.201410.78 Mб110Глава_6.DOC