3.8.2. Оценка ковариационной матрицы

Начнем наш анализ с задачи оценки ковариационной матрицы. Для этого требуется оценить d(d+l)/2 параметров, из которых d диагональных элементов и d(d—l)/2 независимых недиагональных элементов. Сначала мы видим, что оценка по максимуму правдоподобия

представляет собой сумму п—1 независимых матриц размера dxd единичного ранга, чем гарантируется, что она является вырожденной при nd. Так как для нахождения разделяющих (функций необходимо получить величину, обратную , у нас уже есть алгебраические условия, связывающие по крайней мере d+1 выборок. Неудивительно, что сглаживание случайных отклонений для получения вполне приемлемой оценки потребует в несколько раз большего числа выборок.

Часто встает вопрос, как быть, если число имеющихся в распоряжении выборок недостаточно. Одна из возможностей — уменьшить размерность, либо перестраивая выделитель признаков, либо выбирая подходящее подмножество из имеющихся признаков, либо некоторым образом комбинируя имеющиеся признаки ^¹². Другая возможность — это предположить, что все с классов входят в одну ковариационную матрицу, т. е. объединить имеющиеся данные. Можно также попробовать найти лучшую оценку для . Если есть какая-нибудь возможность получить приемлемую априорную оценку , то можно воспользоваться байесовской или псевдобайесовской оценкой вида+(1-). Если матрица диагональная, то уменьшается вредное влияние «побочных» корреляций. С другой стороны, от случайных корреляций можно избавиться эвристически, взяв за основу ковариационную матрицу выборок. Например, можно положить все ковариации, величина коэффициента корреляции в которых не близка к единице, равными нулю. В предельном случае при таком подходе предполагается статистическая независимость, означающая, что все недиагональные элементы равны нулю, хотя это и может противоречить опытным данным. Даже при полной неуверенности в правильности такого рода предположений получаемые эвристические оценки часто обеспечивают лучший образ действий, нежели при оценке по максимуму правдоподобия.

Здесь мы приходим к другому явному противоречию. Можно быть почти уверенным, что классификатор, который строится в предположении независимости, не будет оптимальным. Понятно, что он будет работать лучше в случаях, когда признаки в самом деле независимы, но как улучшить его работу, когда это предположение неверно?

Ответ на это связан с проблемой недостаточности данных, и пояснить ее сущность в какой-то мере можно, если рассмотреть аналогичную поставленной задачу подбора кривой по точкам. На рис. 3.3 показана группа из пяти экспериментальных точек и некоторые кривые, предлагаемые для их аппроксимации. Экспериментальные точки были получены добавлением к исходной параболе независимого шума с нулевым средним значением. Следовательно, если считать, что последующие данные будут получаться таким же образом, то среди всех полиномов парабола должна обеспечить наилучшее приближение. Вместе с тем неплохое приближение к имеющимся данным обеспечивает и приведенная прямая. Однако мы знаем, что парабола дает лучшее приближение, и возникает вопрос, достаточно ли исходных данных, чтобы можно было это предположить. Парабола, наилучшая для большого числа данных, может оказаться совершенно отличной от исходной, а за пределами приведенного интервала легко может одержать верх и прямая линия. Отлично аппроксимируются приведенные данные кривой десятого порядка. Тем не менее никто не будет ожидать, что полученное таким образом предполагаемое решение окажется в хорошем соответствии с вновь получаемыми данными. И действительно, для получения хорошей аппроксимации посредством кривой десятого порядка потребуется намного больше выборок, чем для кривой второго порядка, хотя последняя и является частным случаем той. Вообще надежная интерполяция или экстраполяция не может быть достигнута, если она не опирается на избыточные данные.

Рис. 3.3 Подбор кривых по заданным точкам

<<< < Предыдущая 1 2 3 4 5 6 7 89 / 129 10 11 12 > Следующая >>>

Соседние файлы в папке Анализ и интерпретация данных

#
01.05.20142.53 Mб114Глава_3.doc
#
01.05.20144.12 Mб108Глава_4.doc
#
01.05.20142.76 Mб106Глава_5.DOC
#
01.05.201410.78 Mб110Глава_6.DOC