- •Москва 2011
- •Цель работы.
- •Исходные данные.
- •Описательная статистика.
- •Корреляционная матрица
- •Кластерный анализ.
- •Иерархический;
- •Итерационный.
- •5.1. Иерархический кластерный анализ данных (Joining)
- •Алгоритм к-средних.
- •Характеристики каждого кластера.
- •Факторный анализ.
- •Анализ таблицы собственных чисел.
- •Определение необходимого количества факторов.
- •Канонический анализ
- •Проверка значимости канонических корней.
- •Факторная структура и избыточность
- •Канонические веса
- •Графическое изображение канонических значений
- •Многомерное шкалирование.
- •Заключение
Факторный анализ.
Факторный анализ— многомерный статистический метод, применяемый для изучения взаимосвязей между значениями переменных.
В основе факторного анализа лежит тот факт, что все К исходных признаков линейно зависят от меньшего числа М (М<К) других, непосредственно не изменяемых общих факторов, которые в большинстве моделей рассматриваются как взаимно некоррелированные. При этом не предполагается в общем случае возможность восстановления каждого признака по соответствующим значениям общих факторов.
При проведении статистического исследования на основе факторного анализа, как правило, приходится решать задачу выявления и интерпретации общих факторов, стремясь при этом минимизировать их число.
Модели и методы факторного анализа предназначены для сжатия информации, то есть снижения размерности исходного пространства признаков.
Главные цели факторного анализа:
-
сокращение числа переменных (редукция данных);
-
определение структуры взаимосвязей между переменными, т.е. классификация переменных.
Анализ таблицы собственных чисел.
Собственное число – это значение дисперсии, которое объяснено каждым последующим фактором.
Собственное число фактора – это количество дисперсий, которое данным фактором объясняется.
Определение необходимого количества факторов.
Критерий Кайзера.
Сначала можно отобрать только факторы, с собственными значениями, большими 1. По существу, это означает, что если фактор не выделяет дисперсию, эквивалентную, по крайней мере, дисперсии одной переменной, то он опускается.
В данном случае первые два фактора имеют собственные значения больше единицы. Значит, можно выделить 2 эффективных фактора.
Вывод: при дальнейшем анализе, по критерию Кайзера необходимо рассматривать первые 2 фактора.
Характеристика факторов
Таким образом, отобранными факторами являются валовой региональный продукт и площадь территории.
Минимальные значения обозначены оранжевым цветом, максимальные – зеленым.
Итак, фактор 1 объединил такие показатели, как количество городов, численность населения, валовой региональный продукт, основные фонды в экономике, продукция с/х, инвестиции в основной капитал.
Фактор 2 объединил показатели Площадь территории и среднедушевые денежные доходы.
Максимальное значение по 1 фактору имеет Республика Алтай. Объясняется это и малой численностью населения, и неплодородными землями, да и вообще низкими показателями по всем параметрам, объединенных в 1 фактор. Обратными примером является Свердловская область, являющаяся 5ой по населению в РФ, 6ой по ВРП, в 5ке по инвестициям (из уже отобранных нами субъектов).
Максимальное значение по 2 фактору имеет Республика Ингушетия, что объясняется и малой площадью территорий, и низким уровнем доходов. Минимальные значения у Чукотского АО, как у 2го по площади субъекта и высокими значениями дохода.
Канонический анализ
Канонический анализ предназначен для выявления зависимостей между списками переменных. Если говорить точнее, он позволяет исследовать зависимость между двумя множествами переменных.
Разделим признаки на 2 группы таким образом, чтобы Variance; Redundancy (чем меньше, тем лучше); значение критерия хи-квадрат >> количества степеней свободы (df); вероятность ошибки (p). Как видно из таблиц выбранное разделение признаков удовлетворяет изложенным выше условиям:
Цель анализа: изучить зависимость между экономическими и основными социальными показателями:
1) Основные описательные характеристики субъектов (площадь территории, население, количество городов)
2) Финансовые показатели субъектов
Полученное каноническое значение R достаточно велико (.94754), и высоко значимо (p<.001). R, выдаваемое в этой таблице результатов соответствует лишь первому корню, т.е. наибольшей и наиболее значимой канонической корреляции.
Variance extracted (Извлеченная дисперсия) и Total redundancy (Общая избыточность) равны общей корреляции между двумя множествами переменных, относительно дисперсий этих переменных. Они существенно отличаются от канонического значения R-квадрат, так как эта статистика отражает долю дисперсии, объясняемую каноническими переменными.
Извлеченная дисперсия. Значения в строке Извлеченная дисперсия равны средней дисперсии, извлеченной из переменных в соответствующем множестве, усредненной по всем каноническим корням. Все пять корней извлекают 100% дисперсии из левого множества переменных и 96% из правого, поскольку программа извлекает ровно столько корней, сколько переменных в меньшем множестве.
Общая избыточность. Получаемые значения можно объяснить следующим образом: пользуясь значениями всех канонических корней и получив значения переменных в левом множестве, можно объяснить, в среднем, 60% дисперсии переменных в левом множестве.
Аналогично, можно объяснить 67% изменчивости в правой группе по значениям переменных в левом множестве. Эти результаты говорят о достаточно сильной зависимости между переменными двух множеств