Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Международная академия бизнеса и управления

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Глава 1 АОЭД.doc

Скачиваний:

Добавлен:

17.04.2019

Размер:

2.02 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 56 / 106 7 8 9 10 > Следующая >>>

1.2.2. Случайная векторная переменная

В задачах многомерного статистического анализа (анализ главных компонент, факторный анализ, каноническая корреляция) в матрице «объект-признак» признаки являются случайными величинами . Случайную величину, как это принято в теории вероятностей, обозначать так

где является i-й реализацией j-го признака. Тогда матрица данных «объект-признак» является случайной векторной переменной (СВП)

Х= ,

компонентами которой являются случайные признаки . Теперь каждый объект описывается i-й реализацией СВП и определяется как неслучайный m-мерный вектор-столбец

, .

Отсюда наблюдения над n-объектами можно представить в виде n-реализаций СВП

Х= .

СВП является (m× n)-матрицей, равной транспонированной матрице «объект-признак».

1.2.3. Ковариационная и корреляционные матрицы

Многие методы многомерного анализа данных, включая и множест- венную линейную регрессию, анализ главных компонент, факторный анализ, дискриминантный и канонический корреляционный анализы построены на преобразованиях исходной матрицы «объект-признак» в к вариационную или корреляционную матрицу. Ковариационная матрица - это квадратная матрица типа «признак-признак» размера m× m, образованная из попарных ковариаций m случайных признаков матрицы «объект-признак» X. Ковариационная матрица К_х для матрицы X определяется так

К_х = М[(Х - МХ)'(Х - МХ)],

где МХ = (МХ₁,..., МХ _m) - вектор средних значений.

Компоненты ковариационной матрицы

при совпадают с дисперсией величины . Ковариационная матрица представляет собой симметричную неотрицательно определенную матрицу. Пусть признаки , линейно независимы в том смысле, что ее все нетривиальные линейные комбинации вида ( - компонента произвольного вектора) являются невырожденными случайными величинами, т. е. не являются константами и имеют положительную дисперсию. Тогда ковариационная матрица матрицы наблюдений X положительно определена. Если дисперсии признаков равны 1, т ковариационная матрица называется корреляционной матрицей.

Оценка элементов ковариационной матрицы для матрицы наблюдений X размерности пхт находится по формуле

, , (1.5)

где

(1.6)

среднее признака .

Часто используется и оценка, вычисляемая по формуле

. (1.7)

Оценка по формуле (1.7) обладает относительно выражения (1.5) низкой точностью, которая объясняется тем, что она представляет собой часто разность двух близких друг к другу неотрицательных величин. Указанная близость чисел при вычислениях из-за округлений приводит к потере точности. Если дисперсии переменных малы, то эта оценка может дать даже отрицательные значения диагональных элементов ковариационной матрицы.

Оценки элементов корреляционной матрицы можно получить по формуле

где и - среднеквадратические отклонения признаков и . Если признаки имеют нормальное распределение с ковариационной матрицей К_х, то оценка является оценкой максимума правдоподобия.

Все приведенные выше формулы оценок ковариационной матрицы справедливы для матрицы наблюдений «объект-признак» без пропусков. Рассмотрим свойства оценок при наличии пропусков в наблюдениях. Возможны следующие варианты нахождения оценок при наличии пропусков:

1) вычисление оценки только по данным объектов без пропусков;

2) вычисление оценки по всем доступным наблюдениям;

3) вычисление оценки по данным, пропуски которых заполнены одним из методов раздела 1.2.1.

Для получения оценок по первому варианту используются формулы для полных данных, но при меньшем числе наблюдений. Этот вариант в пакетах прикладных программ соответствует процедуре (Listwise), и он позволяет получать состоятельные оценки параметров, если справедливы условия ОПС и имеются по меньшей мере т + 1 комплектных наблюдений. Если ОПС не соблюдается, то оценки будут смещенными.

Во втором варианте для вычисления средних дисперсий и коэффици-ентов ковариаций используются все данные. Здесь возможны несколько способов нахождения оценок. Наиболее распространена процедура нахождения оценок только по всем комплектным парам (Pairwise). Ковариация между и по наблюдениям, для которых присутствует и , определяется формулой

, (1.8)

где - число наблюдений, в котором одновременно присутствует и и средние , и сумма вычисляется по этим наблюдениям. Если среднеквадратические отклонения , вычислены по наблюдениям, то парные корреляции вычисляются по формуле

. (1.9)

Недостатком этого варианта является то, что оцененные по формулам (1.8) и (1.9) ковариационные и корреляционные матрицы не всегда, положительно определены. Данная проблема сильно обостряется с усилением коррелированности переменных. В случаях сильных связей между переменными более эффективным становится применение метода комплектных наблюдений. Метод парных комплектных наблюдений даёт хорошие результаты при незначительных корреляциях между переменными. В целом оценки по всем доступным парам наблюдений пригодны как начальные оценки в итеративных процедурах.

Если в формуле (1.9) среднеквадратические значения , вычислим по доступным наблюдениям Х_j и Х_к, то получим следующие элементы корреляционной матрицы

. (1.10)

В формуле (1.10) более полно используются данные, но полученная корреляционная матрица не является положительно определенной и, следовательно, она может привести к трудностям на первой итерации в итеративных процедурах. Однако оценки величины могут оказаться вне отрезка [-1, 1], что противоречит смыслу истинной корреляции. Можно получить еще несколько вариантов оценок, заменяя средние в формулах (1.5) - (1.7) их средними по всем присутствующим наблюдениям. Например, применяя такой способ к выражению (1.8), получаем оценку

, (1.11)

которая используется в системе BMDP8D под именем ALLVALU [12].

Рассмотренные оценки по доступным наблюдениям типа (1.8) - (1.11) при ОПС дают возможность получать состоятельные ковариации и корреляции по отдельности. Если же их рассматривать в совокупности, то выясняется, что они обладают недостатками, существенно снижающими их практическую применимость.

Лучших результатов можно достичь, если находить оценки с применением оптимальных методов с восстановлением пропусков. Эффективные методы оценок ковариационных и корреляционных матриц по неполным наблюдениям и при различных ограничениях на искомые матрицы подробно изложены в [12]. Эти методы требуют больших вычислительных затрат, и в них искажение оценок увеличивается с ростом доли пропусков, поэтому по возможности нужно пользоваться другими методами, не связанными с заполнением пропусков.

<<< < Предыдущая 1 2 3 4 56 / 106 7 8 9 10 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
15.02.201641.02 Кб14Вопросы к экзамену _Социальное управление_.docx
#
15.02.201684.82 Кб10вопросы.docx
#
21.04.201999.36 Кб2все в одном.docx
#
15.02.201632.57 Кб13Выполнение рекламных проектов.docx
#
15.02.201639.38 Кб47выполнение рекламных проетков.docx
#
17.04.20192.02 Mб29Глава 1 АОЭД.doc
#
15.02.201640.31 Кб14Дед воевал а ты даж его не учишь.docx
#
24.11.2018280.58 Кб8дерево.DOC
#
15.02.2016480.26 Кб38Дипломная работа.doc
#
15.02.20162.88 Mб35ДК.docx
#
15.02.2016116.12 Кб10Дополнительная подготовка.docx