Скачиваний:
114
Добавлен:
01.05.2014
Размер:
2.53 Mб
Скачать

3.8.2. Оценка ковариационной матрицы

Начнем наш анализ с задачи оценки ковариационной матрицы. Для этого требуется оценить d(d+l)/2 параметров, из которых d диагональных элементов и d(dl)/2 независимых недиагональных элементов. Сначала мы видим, что оценка по максимуму правдопо­добия

представляет собой сумму п1 независимых матриц размера dxd единичного ранга, чем гарантируется, что она является вырожденной при nd. Так как для нахождения разделяющих (функций необ­ходимо получить величину, обратную , у нас уже есть алгебраи­ческие условия, связывающие по крайней мере d+1 выборок. Не­удивительно, что сглаживание случайных отклонений для получения вполне приемлемой оценки потребует в несколько раз большего числа выборок.

Часто встает вопрос, как быть, если число имеющихся в распоря­жении выборок недостаточно. Одна из возможностей — уменьшить размерность, либо перестраивая выделитель признаков, либо вы­бирая подходящее подмножество из имеющихся признаков, либо некоторым образом комбинируя имеющиеся признаки 12. Другая возможность — это предположить, что все с классов входят в одну ковариационную матрицу, т. е. объединить имеющиеся данные. Можно также попробовать найти лучшую оценку для . Если есть какая-нибудь возможность получить приемлемую априорную оцен­ку , то можно воспользоваться байесовской или псевдобайесов­ской оценкой вида+(1-). Если матрица диагональная, то уменьшается вредное влияние «побочных» корреляций. С другой стороны, от случайных корреляций можно избавиться эвристиче­ски, взяв за основу ковариационную матрицу выборок. Например, можно положить все ковариации, величина коэффициента корреля­ции в которых не близка к единице, равными нулю. В предельном случае при таком подходе предполагается статистическая незави­симость, означающая, что все недиагональные элементы равны нулю, хотя это и может противоречить опытным данным. Даже при полной неуверенности в правильности такого рода предположений получае­мые эвристические оценки часто обеспечивают лучший образ дей­ствий, нежели при оценке по максимуму правдоподобия.

Здесь мы приходим к другому явному противоречию. Можно быть почти уверенным, что классификатор, который строится в предпо­ложении независимости, не будет оптимальным. Понятно, что он будет работать лучше в случаях, когда признаки в самом деле неза­висимы, но как улучшить его работу, когда это предположение не­верно?

Ответ на это связан с проблемой недостаточности данных, и пояснить ее сущность в какой-то мере можно, если рассмотреть ана­логичную поставленной задачу подбора кривой по точкам. На рис. 3.3 показана группа из пяти экспериментальных точек и не­которые кривые, предлагаемые для их аппроксимации. Экспери­ментальные точки были получены добавлением к исходной параболе независимого шума с нулевым средним значением. Следовательно, если считать, что последующие данные будут получаться таким же образом, то среди всех полиномов парабола должна обеспечить наи­лучшее приближение. Вместе с тем неплохое приближение к име­ющимся данным обеспечивает и приведенная прямая. Однако мы знаем, что парабола дает лучшее приближение, и возникает вопрос, достаточно ли исходных данных, чтобы можно было это предполо­жить. Парабола, наилучшая для большого числа данных, может оказаться совершенно отличной от исходной, а за пределами приведенного интервала легко может одержать верх и прямая линия. Отлично аппроксимируются приведенные данные кривой десятого порядка. Тем не менее никто не будет ожидать, что полученное таким образом предполагаемое решение окажется в хорошем соответствии с вновь получаемыми данными. И действительно, для получения хорошей аппроксимации пос­редством кривой десятого порядка потребуется намного больше выбо­рок, чем для кривой второго по­рядка, хотя последняя и является частным случаем той. Вообще надежная интерполяция или экстраполяция не может быть достиг­нута, если она не опирается на избыточные данные.

Рис. 3.3 Подбор кривых по заданным точкам

Соседние файлы в папке Анализ и интерпретация данных