Добавил:

Studfiles2 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный электротехнический университет "ЛЭТИ"

Предмет:

Анализ и интерпретация данных

Файл:

Методы анализа больших массивов данных / bmd3.doc

Скачиваний:

Добавлен:

01.05.2014

Размер:

988.67 Кб

Скачать

☆

<<< < Предыдущая 1 2 3 4 56 / 76 7 > Следующая >>>

3.7. Оценки общностей и вращение факторов

Отметим, что никакой теоретической постановки задачи оценки общностей на сегодня нет. Все известные способы являются эвристическими приемами, проверенными практикой. Но в основе различных способов находится следующее, по-видимому, самое общее предположение.

Ранг корреляционной матрицы равен ее порядку. Очевидно, что ее можно разложить на произведение матриц факторных нагрузок общих факторов с числом факторов, совпадающих с числом исходных признаков. Но такое разложение не совсем желательно, так как основной предпосылкой является возможность объяснения корреляций большого числа исходных признаков при помощи меньшего числа общих факторов. Следовательно, предполагается, что ранг редуцированной корреляционной матрицы равен числу общих факторов. Но это означает, что общности следует выбирать так, чтобы ранг редуцированной корреляционной матрицы был, по возможности, наименьшим. Наиболее простыми способами определения общностей являются следующие:

1. оценка общности признакаX_jравна наибольшему из коэффициентов корреляции его с другими признаками;

2. оценка принимается равной среднему значению всех коэффициентов корреляции признакаX_jс остальными признаками.

Целью вращения факторов является получение простой факторной структуры. Но концепция простоты неоднозначна, поэтому нет единых формальных критериев. Наиболее полно требования к простой структуре были выражены Терстоуном, но не все они формализуются в аналитическом виде.

По-видимому, в основе свойств системы факторов, образующих простую структуру, лежит следующее общее предположение.

Различные существенные внутренние свойства изучаемого явления по-разному сказываются на различных признаках, описывающих его. Те признаки, на которые наиболее сильно влияет одно из скрытых существенных свойств, должны быть, как правило, более сильно связаны между собой, чем с другими признаками. Такие исходные признаки образуют достаточно изолированную группу. Следовательно, если удалось выделить такие изолированные группы признаков, то каждый из общих факторов должен быть сильно связан с одной из таких групп и слабее связан с другими группами.

Пусть n- число признаков,m- число общих факторов. Тогда для простой (идеальной) факторной структуры матрица факторных нагрузок имеет следующий вид. В простой факторной структуре каждый признак имеет ненулевую нагрузку только на один общий фактор. Следовательно, в матрице факторных нагрузок каждая строка содержит только один ненулевой элемент, каждый столбец будет иметь несколько нулей, а для каждой пары столбцов ненулевые элементы не совпадают.

Геометрический смысл простой структуры состоит в следующем. Рассмотрим пространство mобщих факторов. Тогда каждый исходный признак будет представлен в нем вектором, компонентами которого являются элементы соответствующей строки матрицы факторных нагрузок. В случае простой структуры все векторы признаков разбиты на группы, в каждой из которых они точно лежат на оси соответствующего фактора. Очевидно, что для реальных данных такая структура недостижима. Поэтому задача состоит в поиске структуры, наиболее близкой к простой.

Отметим, что формально близость структур можно понимать по-разному. Поэтому все процедуры вращения строятся как процедуры экстремизации некоторого критерия, формализующего понятие близости к простой структуре. Наиболее известные критерии вращения имеют специальные названия: квартимакс, варимакс, эвримакс. Оба последних являются модификациями критерия квартимакс.

Критерий квартимакс формализует представление о том, что фактор сильно связан с группой признаков, если соответствующие нагрузки достаточно велики по модулю. В то же время нагрузки признаков из других групп достаточно малы по модулю. Следовательно, можно предположить, что квадраты факторных нагрузок признаков по всем факторам должны стремиться к значениям 0 и 1. Но такое предположение означает требование максимизации общей дисперсии квадратов всех факторных нагрузок

, где.

Сразу отметим, что величина bявляется константой для найденных факторов, так как

В процессе вращения вклад факторов не меняется, но изменяются соотношения между компонентамиэтой величины. Запишем критерий в виде

Так как , то получим.

Критерий варимакс формализует представление о том, что фактор сильно связан с группой признаков, если дисперсия квадратов факторных нагрузок признаков этим фактором велика: . Но признаки имеют различные общности, что интерпретируется как дисперсия значений по их оси в пространстве исходных признаков или квадрат длины соответствующего вектора в факторном пространстве. Поэтому в критерии варимакс используют факторные нагрузки, взвешенные относительно длинывектора соответствующего признака. Дляk-го фактора получим

Тогда для всех факторов получим

Алгоритм представляет собой итерационную процедуру поиска ортогональной матрицы вращения размером , доставляющей максимум критерию, путем попарного вращения поочередно всех факторов.

Критерий эвримакс является комбинацией предыдущих критериев и реализует эвристическое предположение, что простая структура должна в среднем удовлетворять обоим признакам сильной связи фактора с признаками своей группы

При образуется критерий квартимакс, при- критерий варимакс, при- критерий эвримакс, а при- критерий биквартимакс.

<<< < Предыдущая 1 2 3 4 56 / 76 7 > Следующая >>>

Соседние файлы в папке Методы анализа больших массивов данных

#
01.05.201460.93 Кб93BMD.DOC
#
01.05.2014731.14 Кб103BMD1.DOC
#
01.05.20141.19 Mб110bmd2.doc
#
01.05.2014988.67 Кб84bmd3.doc
#
01.05.20141.77 Mб94bmd4.doc