- •Глава 4 непараметрические методы
- •4.1. Введение
- •4.2. Оценка плотности распределения
- •4.3. Парзеновские окна
- •4.3.1. Общие соображения
- •4.3.2. Сходимость среднего значения
- •4.3.3. Сходимость дисперсии
- •4.3.4. Два примера
- •4.4. Оценка методом kn ближайших соседей
- •4.5. Оценка апостериорных вероятностей
- •4.6. Правило ближайшего соседа
- •4.6.1. Общие замечания
- •4.6.2. Сходимость при использовании метода ближайшего соседа
- •4.6.3. Уровень ошибки для правила ближайшего соседа
- •4.6.4. Границы ошибки
- •4.7. Правило k ближайших соседей
- •4.8. Аппроксимации путем разложения в ряд
- •4.9. Аппроксимация для бинарного случая
- •4.9.1. Разложение Радемахера - Уолша
- •4.9.2. Разложение Бахадура - Лазарсфельда
- •4.9.3. Разложение Чоу
- •4.10. Линейный дискриминант Фишера
- •4.11. Множественный дискриминантный анализ
- •4.12. Библиографические и исторические сведения
4.11. Множественный дискриминантный анализ
Для задачи с с классами естественное обобщение линейного дискриминанта Фишера включает с—1 разделяющих функций. Таким образом, проекция будет из d-мерного пространства на (с—1)-мерное пространство, причем принимается, что dc. Обобщение для матрицы разброса внутри класса очевидное:
(81)
где, как и прежде,
(82)
и
(83)
Соответствующее обобщение для не так очевидно. Предположим, что мы определяем полный вектор средних значений m и полную матрицу разброса посредством
(84)
и
(85)
Отсюда следует, что
Естественно определять этот второй член как матрицу разброса между классами, так что полный разброс есть сумма разброса внутри класса и разброса между классами:
(86)
и
= + . (87)
В случае с двумя классами мы обнаружим, что полученная в результате матрица разброса между классами будет в п1п2/п раз больше нашего предыдущего определения. Мы могли бы переопределить для случая с двумя классами, чтобы добиться полного согласования, но вспомнив замечание Эмерсона о том, что бессмысленное согласование—идол недалеких умов, пойдем дальше.
Проекция из d-мерного пространства в (с—1)-мерное пространство осуществляется с помощью с—1 разделяющих функций
i=1, . . . , с—1 (88)
Если считать составляющими вектора у, а векторы весовых функций wi столбцами матрицы W размера dx (с—1), то проекцию можно записать в виде одного матричного уравнения
. (89)
Выборки x1, . . ., хn проецируются на соответствующее множество выборок y1, . . ., yn которые можно описать с помощью их векторов средних значений и матриц разброса. Так, если мы определяем
(90)
(91)
(92)
и
(93)
то можно непосредственно получить
(94)
(94)
Эти уравнения показывают, как матрицы разброса внутри класса и между классами отображаются посредством проекции в пространство меньшей размерности. Мы ищем матрицу отображения W,
которая в некотором смысле максимизирует отношение разброса между классами к разбросу внутри класса. Простым скалярным показателем разброса является определитель матрицы разброса. Определитель есть произведение собственных значений, а следовательно, и произведение «дисперсий» в основных направлениях, измеряющее объем гиперэллипсоида разброса. Пользуясь этим показателем, получим функцию критерия
(96)
Задача нахождения прямоугольной матрицы W, которая максимизирует J, не из легких. К счастью, оказывается, что ее решение имеет относительно простой вид 8.Столбцы оптимальной матрицы W являются обобщенными собственными векторами, соответствующими наибольшим собственным значениям в
(97)
Следует сделать несколько замечаний относительно этого решения. Во-первых, если — невырожденная матрица, то задачу, как и прежде, можно свести к обычной задаче определения собственного значения. Однако в действительности это нежелательно, так как при этом потребуется ненужное вычисление матрицы, обратной . Вместо этого можно найти собственные значения как корни характеристического полинома
,
а затем решить
непосредственно для собственных векторов wi. Поскольку является суммой с матриц ранга единица или менее и поскольку только с—1 из них независимые матрицы, имеет ранг с—1 или меньше. Так что не более с—1 собственных значений не нули и искомые векторы весовых функций соответствуют этим ненулевым собственным значениям. Если разброс внутри класса изотропный, собственные векторы будут просто собственными векторами матрицы , а собственные векторы с ненулевыми собственными значениями стягивают пространство, натянутое на векторы mi—m. В этом частном случае столбцы матрицы W можно найти, просто применяя процедуру ортонормирования Грама — Шмидта к с—1 векторам mi. Наконец, заметим, что, вообще говоря, решение для W не является однозначным. Допустимые преобразования включают вращение и масштабирование осей различными путями. Это все линейные преобразования из (с—1)-мерного пространства в (с—1)-мерное пространство, и они не меняют значительно положения вещей. В частности, они оставляют функцию критерия J(W) инвариантной.
Как и в случае с двумя классами, множественный дискриминантный анализ в первую очередь позволяет сократить размерность задачи. Параметрические или непараметрические методы, которые могут не сработать в первоначальном (многомерном) пространстве, могут хорошо действовать в пространстве меньшей размерности. В частности, можно будет оценить отдельные ковариационные матрицы для каждого класса и использовать допущение об общем многомерном нормальном распределении после преобразования, что было невозможно сделать с первоначальными данными. Вообще преобразование влечет за собой некоторое ненужное перемешивание данных и повышает теоретически достижимый уровень ошибки, а проблема классификации данных все еще остается. Существуют другие пути уменьшения размерности данных, и мы вернемся к этой теме в гл. 6. Существуют также другие методы дискриминантного анализа; некоторые из них упоминаются в литературе к этой главе. Одним из самых фундаментальных и наиболее широко используемых методов все же остается метод Фишера.