Скачиваний:
115
Добавлен:
01.05.2014
Размер:
1.38 Mб
Скачать

3.8. Экстремальная группировка признаков (параметров).

Итак, мы пришли к выводу, что необходимость содержательной интерпретации факторного решения приводит к необходимости вращения факторов с целью получения простой структуры матрицы факторных нагрузок. Основные требования к простой структуре были сформулированы Терстоуном, основателем метода факторного анализа. Как уже было показано, идея простой структуры Терстоуна хорошо согласуется с представлением о интерпретации фактора как скрытого, но существенного, признака, поведение которого определяет поведение некоторой своей группы наблюдаемых признаков, в то время, как поведение других признаков определяется поведением других скрытых признаков.

Если в данном случае обратимся к корреляционной матрице, то можно непосредственно увидеть, что она должна обладать так называемой блочно-диагональной структурой. Это означает, что путём одновременной перестановки строк и столбцов можно так перегруппировать элементы корреляционной матрицы, что все большие значения будут сосредоточены в квадратных блоках равного размера, число которых равно числу групп сильно связанных признаков. Такие блоки будут расположены вдоль главной диагонали матрицы. Тогда для каждой из выделенных групп сильно связанных признаков можно построить только один фактор с наибольшим вкладом в их общности. Естественно ожидать, что содержательная интерпретация такого фактора окажется простой.

Для решения данной задачи в работах Э.М. Бравермпнп в 1970 г. были предложены полностью формализованные, так называемые методы экстремальной группировки признаков. В данных методах коррелированность признаков внутри групп объективно оценивается при данном разбиении с помощью специального функционала, зависящего одновременно как от разбиения признаков на группы, так и от построенных для каждой группы факторов группы. В данных методах в едином процессе экстремизации такого функционала одновременно с группировкой признаков строятся отдельные факторы для каждой формируемой группы.

Глубокая связь методов экстремальной группировки признаков с методами факторного анализа состоит в том, что факторы отдельных групп строятся как главные или центроидные факторы при анализе редуцированной корреляционной матрицы и как главные или центроидные компоненты при анализе исходной корреляционной матрицы. Тем самым, факторное решение, полученное методами экстремальной группировки, оказывается полученным в результате одновременного решения в едином процессе следующих задач: построения m общих факторов, их косоугольного (неортогонального) вращения с целью получения простой структуры, вычисления значений общих факторов.

3.9. Алгоритмы экстремальной группировки.

Пусть множество признаков Xj, j=1,,n разбито на L групп G1,,GL. Разбиение признаков Xj означает разбиение матрицы данных X на L групп столбцов. Рассмотрим редуцированную корреляционную матрицу . Разбиение признаков наL групп означает разбиение матрицы одновременно на группы строк и соответствующие группы столбцов. Тогда вдоль главной диагонали будут выделены подматрицы,k=1,,L, элементами которых являются корреляции признаков, входящих в одну группу.

Пусть каждой группе признаков Gk, то есть каждой матрице группы Gk поставлен в соответствие некоторый нормированный фактор Fk, k=1,,L, FkTFk=N. Рассмотрим для некоторой группы Gk вклад её фактора Fk в общности признаков данной группы , гдеajk – факторная нагрузка признака Xj из группы Gk фактором Fk.

Очевидно, что фактор группы является наиболее важным среди всех возможных факторов и, следовательно, обеспечивает наибольший вклад в общности признаков. Так как вклад , то его максимизация означает, что вектор факторных нагрузок, гдеnk – число признаков в группе Gk, пропорционален первому собственному вектору матрицы , соответствующему её максимальному собственному числу . Следовательно, фактор группыGk является её первым главным фактором, поэтому значения факторных нагрузок вычисляются как величины

,

где - диагональная матрица собственных чисел матрицы,

, - первый собственный вектор матрицы.

Совокупность, максимизация функционала I1 при фиксированных группах G1,,GL означает построение факторов, сильно коррелирующих со своей группой признаков. С другой стороны, чем сильнее коррелируют признаки в группе, тем сильнее коррелируют с ними их фактор, тем выше значение функционала I1. Поэтому при фиксированных факторах следует перегруппировывать признаки с целью образования более компактных групп.

Для этого следует просмотреть все признаки Xj и для каждого из них найти такую группу Gl, с фактором которой данный признак коррелирует сильнее всего

, j=1,,n.

Признак Xj следует перенести в группу Gl, или одну из них, если таких групп несколько, или оставить на месте, если среди них встретились группа, к которой ранее принадлежал данный признак. Далее вновь надо найти факторы новых групп. Вычисления следует прекратить, когда ни один из признаков нельзя перенести в другую группу.

Заметим, что при фиксированном разбиении на группы G1,,GL для признака Xj известна только его корреляция с фактором своей группы r(Xj,Fl)=ajl, а корреляции с факторами других групп неизвестны. Но для их вычисления, то есть для вычисления величин r(Xj,Fk)=ajk, k=1,,L, kl, не обязательно вычислять значения факторов остальных групп, так как

,

где - матрица вычисленных значений для признаковXj в группе Gk.

- вектор-столбец, составляющий часть j столбца исходной редуцированной корреляционной матрицы , iGk для признаков из группы Gk.

В качестве начального можно взять любое разбиение признаков, но лучше взять разбиение, полученное каким-либо более простым алгоритмом для сокращения числа шагов работы данного алгоритма. Это необходимо, так как на каждом шаге алгоритма экстремальной группировки приходится определять собственные векторы соответствующих подматриц.

Второй алгоритм экстремальной группировки основан на алгоритме построения центроидных факторов. При этом для каждой группы сильно связанных признаков строится первый центроидный фактор группы. Очевидным достоинством такого алгоритма является его простота и меньшая трудоёмкость вычислений, так как все они связаны только с определением знаков +1 и –1 целочисленных коэффициентов, как при вычислении факторных нагрузок признаков группы, так и при переносе признаков между группами с целью максимизации квадратичных форм для группGk, где k=(1k,,nk)T – векторы коэффициентов, принимающих значения +1 и –1, k=1,,L. Именно поэтому второй алгоритм экстремальной группировки удобно использовать для получения начального решения для первого алгоритма. Недостатком второго алгоритма является локальность найденного им решения.

Оба данных алгоритмов приводят, вообще говоря, к разным разбиением признаков на группы и, тем более, к разным факторам. Но часто оба алгоритма приводят к весьма близким и даже совпадающим разбиением и близким факторам.

3.10. Заключение.

Идея, лежащая в основе факторного анализа, весьма проста – это гипотеза скрытых факторов, то есть, по сути, та же гипотеза компактности, но в пространстве объектов. Но практическая реализация интуитивно ясной и простой идеи факторов вычислительно оказалась весьма трудоемкой. Субъективно факторный анализ возник в психологии в работах Ч.Спирмена и Л.Л.Терстоуна – области, прекрасно иллюстирирующей суть факторного подхода к обработке данных [6]. Но объективно, как это понятно сейчас, факторный анализ возник и развивался с самого начала без поддержки вычислительной техникой. И это, как кажется, сказалось на развитии факторных методов и формирования образа действий при таком подходе к обработке данных у исследователей. Как кажется, ясность идеи оказалась в значительной степени заслонена попытками преодолеть беспомощность человеческого воображения перед существенной многомерностью пространства признаков и пространства объектов. Именно поэтому возникло стремление представить всю совокупность действий в факторном анализе в виде последовательности обособленных этапов, на каждом из которых последовательность вычислений предельно формализована с целью избежать ошибок ручных вычислений. Можно сказать, что метод факторного анализа развивался как метод автоматизированных ручных вычислений. Ярким примером такого подхода является весьма содержательное и подробное введение в факторный анализ в [6].

В то же время была отмечена связь факторного метода с известным математическим пробразованием диагонализации квадратной матрицы в задаче о собственных векторах и основанном на нем статистическим методом преобразования данных – методом главных компонент [4, 5, 7, 8].

С развитием вычислительной техники появилась возможность отказаться от ограничений ручной автоматизации вычислений факторов и проводить многократные и полные вычисления в разумные сроки. Это способствовало как прояснению основной идеи, так и ускорению развития различных более тонких подходов и вариантов вычислений в рамках уже ставшей традиционной к тому времени вычислительной схемы [1, 7].

Но, как кажется, наиболее практично идя факторного метода была реализована в подходе, названном методами экстремальной группировки признаков (параметров) [2,3]. Методы экстремальной группировки обнаруживают глубокую принципиальную связь с методами построения факторов и реализуют в едином процессе экстремизации некоторого функционала все этапы традиционной вычислительной схемы поиска факторного решения. Применение методов экстремальной группировки позволяет весьма технологично и быстро провести, по крайней мере, первичный анализ, предоставляя исследователю возможность потом провести более тонкие исследования факторной структуры другими методами. В чисто практическом смысле методы экстремальной группировки часто позволяют при сокращении размерности признакового пространства данных получить хорошо интерпретируемые факторы.

3.11. Литература к главе 3.

  1. Афифи А., Эйзен С. Статистический анализ с использованием ЭВМ. М.: Мир, 1982. 488 с.

  2. Браверман Э.М., Мучник И.Б. Структурные методы обработки эмпирических данных. М.: Наука, 1983. 464 с.

  3. Жуковская В.М., Мучник И.Б. Факторный анализ в социально-экономических исследованиях. М.: Статистика, 1976. 152 с.

  4. Иберла К. Факторный анализ. М.: Статистика, 1980. 398 с.

  5. Лоули Д., Максвелл А. Факторный анализ как статистический метод. М.: Мир, 1967. 144 с.

  6. Окунь Я. Факторный анализ. М.: Статистика, 1974. 200 с.

  7. Факторный, дискриминантный и кластерный анализ. М.: Финансы и статистика, 1989. 216 с.

  8. Харман Г. Современный факторный анализ. М.: Статистика, 1972. 486 с.

    1. Вопросы для самопроверки.

Соседние файлы в папке Основы обработки данных