Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Компьютерный практикум по статистике

.pdf
Скачиваний:
160
Добавлен:
01.04.2015
Размер:
2.27 Mб
Скачать

а) окно ввода данных программы «Факторный анализ»

б) окно «Факторный анализ: Выделение факторов»

б) окно «Факторный анализ: Значения факторов»

Рис. 3.6.1. Ввод исходных данных для компонентного анализа»

71

Факторный анализ

Общности

 

Начальные

Извлеченные

x(1)

1,000

1,000

x(2)

1,000

1,000

x(3)

1,000

1,000

x(4)

1,000

1,000

x(5)

1,000

1,000

Метод выделения: Анализ главных компонент.

Полная объясненная дисперсия

Компонента

 

 

Начальные собственные значения

 

 

Суммы квадратов нагрузок извлечения

 

Итого

 

% Дисперсии

Кумулятивный %

 

Итого

 

% Дисперсии

Кумулятивный %

 

 

 

 

 

1

3,261

 

 

 

65,226

 

 

65,226

 

3,261

 

 

65,226

65,226

2

1,025

 

 

 

20,492

 

 

85,717

 

1,025

 

 

20,492

85,717

3

0,510

 

 

 

10,208

 

 

95,926

 

0,510

 

 

10,208

95,926

4

0,183

 

 

 

3,659

 

 

99,584

 

0,183

 

 

3,659

99,584

5

0,021

 

 

 

0,416

 

 

100,000

 

0,021

 

 

0,416

100,000

 

 

 

 

 

 

 

Метод выделения: Анализ главных компонент.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Матрица компонентa

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Компонента

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

2

 

3

 

 

 

4

 

 

5

 

 

 

 

 

x(1)

 

 

0,951

 

 

0,014

 

0,235

 

 

0,174

 

–0,097

 

 

 

 

 

x(2)

 

 

 

–0,766

 

0,115

 

0,631

 

 

0,031

 

0,021

 

 

 

 

 

x(3)

 

 

 

–0,169

 

0,974

 

–0,127

 

 

0,076

 

–0,005

 

 

 

 

 

x(4)

 

 

 

–0,888

 

 

–0,247

 

–0,188

 

 

0,339

 

–0,006

 

 

 

 

 

x(5)

 

 

0,976

 

 

0,020

 

0,073

 

 

0,176

 

0,105

 

 

 

 

 

 

 

Метод выделения: Анализ методом главных компонент.

 

 

 

 

 

 

 

 

 

 

a. Извлеченных компонент: 5

 

 

 

 

 

 

 

 

 

 

 

 

 

Матрица коэффициентов оценок компонент

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Компонента

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

2

 

3

 

 

 

4

 

 

5

 

 

 

 

 

x(1)

 

 

0,292

 

 

0,014

 

0,461

 

 

0,951

 

-4,645

 

 

 

 

 

x(2)

 

 

 

–0,235

 

0,112

 

1,236

 

 

0,171

 

1,019

 

 

 

 

 

x(3)

 

 

 

–0,052

 

0,951

 

–0,249

 

 

0,417

 

-0,226

 

 

 

 

 

x(4)

 

 

 

–0,272

 

 

–0,242

 

–0,369

 

 

1,852

 

-0,280

 

 

 

 

 

x(5)

 

 

0,299

 

 

0,019

 

0,143

 

 

0,964

 

5,035

 

 

 

 

 

 

 

Метод выделения: Анализ методом главных компонент.

 

 

 

 

 

 

 

 

 

 

 

 

 

Значения компонент.

 

 

 

 

 

 

 

 

 

 

 

 

 

Ковариационная матрица оценок компонент

 

 

 

 

 

Компонента

 

1

 

 

 

2

 

3

 

 

4

 

5

 

 

 

 

1

 

 

 

1,000

 

0,000

0,000

 

0,000

0,000

 

 

 

2

 

 

 

0,000

 

1,000

0,000

 

0,000

0,000

 

 

 

3

 

 

 

0,000

 

0,000

1,000

 

0,000

0,000

 

 

 

4

 

 

 

0,000

 

0,000

0,000

 

1,000

0,000

 

 

 

5

 

 

 

0,000

 

0,000

0,000

 

0,000

1,000

 

Метод выделения: Анализ методом главных компонент. Значения компонент.

Рис. 3.6.2. Числовые результаты работы программы «Факторный анализ»

б) В таблице «Матрица компонент» (в числовых результатах работы программы «Факторный анализ», представленных на рис. 3.6.2) приводится матрица оценок нагрузок признаков X(1), X(2), X(3), X(4), X(5) (строк) на компоненты (столбцы) F(1), F(2), F(3), F(4), F(5).

Запишем на основе матрицы нагрузок выражения исходных признаков через главные компоненты, например,

72

ˆ

 

 

 

 

 

; i =1, 2,…, 52 ,

(1)

(1)

(2)

(3)

(4)

(5)

Xi

=0,951Fi

+0,014Fi

+0,235Fi

+0,174Fi

0,097Fi

и выражения оценок главных компонент через признаки, например,

ˆ(1) = 0,951X(1) 0,766X(2) 0,169X(3) 0,888X(4) +0,976X(5) =

F

3,261

=0,292X(1) 0,235X(2) 0,052X(3) 0,272X(4) +0,299X(5) .

Такой же результат получается при анализе матрицы нагрузок компонент на исходные признаки, которая выводится в таблице «Матрица коэффициентов оценок компонент» (см. рис. 3.6.2).

k

DF(j) j=1

5 DF(j)

j=1

100%

80%

60%

40%

20%

k

0

1

2

ъ 3

4

5

Рис. 3.6.3. Накопленная доля объясненной дисперсии

3.Две первые компоненты объясняют 85,71% суммарной дисперсии

исходных признаков. Установим их с о д е р ж а т е л ь н ы й с м ы с л. Первая главная компонента находится в тесной прямой линейной связи со

средним числом детей в семье X(1) a =ˆr(X(1),F(1) ) =0,951) и с рождаемостью

11

X(5) a =ˆr(X(5)

,F(1)) =0,976) и в тесной обратной линейной связи с ВВП на

51

 

душу населения X(2) a =ˆr(X(2),F(1)) = −0,766 ) и процентом грамотных X(4)

 

21

a =ˆr(X(4)

,F(1)) = −0,888), поэтому ее можно интерпретировать как п о к а -

41

 

з а т е л ь

«н е р а з в и т о с т и» с т р а н ы. Вторая главная компонента

связана с плотностью населения X(3), она и интерпретируется как п о к а -

з а т е л ь п л о т н о с т и н а с е л е н и я.

Значения компонент на 52 объектах находятся в окне ввода данных

PASW Statistics под именами «FAC1_1», «FAC2_1», …, «FAC5_1». Сохраним

их для использования в п. 5 работы 7.

4. Результатом регрессионного анализа (с исключением) признака Y

на пять главных компонент стало уравнение ˆyf =67,48 6,98f(1) ,

для которого оценка нормированного коэффициента детерминации Rɶ2(Y | f(1)) =

=0,72, что выше (но ненамного) оценки нормированного коэффициента детерминации, полученного в результате регрессионного анализа (с исключением) признака Y на исходные, заданные табл. 3.4.1, регрессоры x(1), x(2), x(3), x(4), x(5). (Студент должен приложить к работе распечатки результатов расчетов,

полученных с помощью компьютерных программ регрессионного анализа.) Таким образом, первая главная компонента несет в себе достаточно ин-

формации для определения результативного признака — средней продолжительности жизни мужчин.

73

5. В м о д е л и ф а к т о р н о г о а н а л и з а предполагается, что каждый признак X(j) (j = 1, 2, 3, 4, 5) формируется как линейная комбинация м е н ь ш е г о ч и с л а (m < 5) о б щ и х факторов F(1), F(2), , F(m) и с п е - ц и ф и ч е с к о г о фактора ε(j), причем влиянием общих факторов объясня-

ются ковариации исходных признаков, а для воспроизведения дисперсий исходных признаков нужны также и специфические факторы:

X(j) = a

F(1)

+ a

j2

F(2)

+ + a

F(m) + ε(j); i = 1, 2,…, 52; j = 1, 2,…, m.

i

j1 i

 

i

 

jm i

i

К общим и специфическим факторам предъявляются следующие требования:

общие факторы должны быть некоррелированы между собой;

специфические факторы должны быть некоррелированы как между собой, так и с общими факторами.

Для реализации факторного анализа в пакете PASW Statistics обратим-

ся (с помощью выбора пункта «Снижение размерности | Факторный анализ…» меню «Анализ») к программе «Факторный анализ» (рис. 3.6.1, а), выберем в окне «Факторный анализ: Выделение факторов», вызываемом нажатием кнопки «Извлечение…», метод максимального правдоподобия и зададим

фиксированное число факторов, равное одному — попробуем вначале вы-

явить один общий фактор (рис. 3.6.4).

Рис. 3.6.4. Ввод параметров метода снижения размерности при проведении факторного анализа

Поскольку мы выделяем о д и н общий фактор, вращение одномерного

факторного пространства невозможно.

Установим флажок «Сохранить как переменные» в окне «Факторный анализ: Значения факторов», вызываемом нажатием кнопки «Значения факторов…» — тогда значения общих факторов на 52 объектах автоматически

74

добавятся в виде переменных к исходным данным; установим также флажок «Вывести матрицу значений коэффициентов факторов», который позво-

ляет получить в результате работы программы матрицу нагрузок общих факторов на исходные признаки (см. рис. 3.6.1, в).

Результаты работы программы «Факторный анализ» представлены на

рис. 3.6.5.

Факторный анализ

Общностиa

 

Начальные

Извлеченные

x(1)

0,956

0,935

x(2)

0,625

0,477

x(3)

0,163

0,020

x(4)

0,735

0,684

x(5)

0,962

0,999

Метод выделения: Максимальное правдоподобие

a. В течение итераций обнаружена одна или более оценок общностей большее чем 1. Выходное решение должно интерпретироваться осторожно.

Полная объясненная дисперсия

Фактор

Начальные собственные значения

Суммы квадратов нагрузок извлечения

Итого

% Дисперсии

Кумулятивный %

Итого

% Дисперсии

Кумулятивный %

1

3,261

65,226

65,226

3,114

62,285

62,285

2

1,025

20,492

85,717

 

 

 

3

0,510

10,208

95,926

 

 

 

4

0,183

3,659

99,584

 

 

 

5

0,021

0,416

100,000

 

 

 

Метод выделения: Максимальное правдоподобие.

Матрица факторовa

 

Фактор

 

1

x(1)

0,967

x(2)

–0,691

x(3)

–0,142

x(4)

–0,827

x(5)

1,000

Метод выделения: Максимальное правдоподобие. a. Извлеченных факторов: 1 Требуемых итераций: 5

Критерий согласия

Хи-квадрат

ст.св.

 

Знч.

24,290

 

5

0,00019

Матрица коэффициентов факторных значений

 

Фактор

 

1

x(1)

0,015

x(2)

–0,001

x(3)

0,000

x(4)

–0,003

x(5)

0,982

Метод выделения: Максимальное правдоподобие. Метод вычисления факторных нагрузок: Регрессия.

Ковариационная матрица факторных значений

Фактор

1

1

0,999

Метод выделения: Максимальное правдоподобие. Метод вычисления факторных нагрузок: Регрессия.

Рис. 3.6.5. Результаты работы программы «Факторный анализ» при выделении одного общего фактора

75

Значения общего фактора на 52 объектах появились в результате работы программы в окне ввода данных PASW Statistics под именем «FAC1_2».

Сохраним их для использования в п. 6 работы 7.

Гипотеза H0 о том, что число общих факторов равно одному, отверга-

ется на 5%-ном уровне значимости, так как наблюдаемое значение статистики χ25 , равное 24,29 (оно приведено в результатах работы программы «Факторный анализ» в таблице «Критерий согласия» — см. рис. 3.6.5), оказалось больше критической точки χ20,05;5 = 11,07 (соответствующее P-

значение, равное 0,00019, приведено в столбце «Знч.»).

Попробуем теперь выявить два общих фактора. Для этого вновь проведем факторный анализ методом максимального правдоподобия, задав в окне «Факторный анализ: Выделение факторов» (см. рис. 3.6.4) фиксированное число факторов, равное двум. Укажем, что для вращения факторного пространства необходимо воспользоваться методом «Варимакс» (на рис. 3.6.6

представлено окно ввода параметров вращения факторного пространства).

Рис. 3.6.6. Окно «Факторный анализ: Вращение»

Результаты работы программы представлены на рис. 3.6.7 — максимум функции правдоподобия не найден.

Матрица факторовa

a. Была предпринята попытка извлечь 2 факторов. На итерации 25 не был найден локальный минимум.

Извлечение прекращено.

Рис. 3.6.7. Результаты работы программы «Факторный анализ» при выделении двух общих факторов

Таким образом, общие факторы выделить не удалось; пп. 6 и 7 не выполняем.

Замечание. Подобная ситуация, когда метод максимального правдоподобия не сходится, является нередкой в практических задачах.

76

3.7.К л а с т е р н ы й а н а л и з

1.Проведем по исходным данным табл. 3.5.1 классификацию 20 стран: Австралии, Австрии, Беларуси, Бразилии, Великобритании, Вьетнама, Германии, Замбии, Индии, Италии, Канады, Китая, Мексики, Польши, России, США, Украины, Филиппин, Эфиопии и ЮАР.

Откроем в окне ввода данных PASW Statistics матрицу (52 × 6) значений

признаков (сохраненную при выполнении п. 2 работы 5) и оставим в ней только строки, соответствующие классифицируемым странам.

Поскольку исходные переменные x(1), x(2), x(3), x(4), x(5) имеют различную

природу и единицы измерения, перед выполнением процедур кластерного анализа стандартизуем исходные данные — перейдем к новым переменным

z(1), z(2), z(3), z(4), z(5) по правилу

z(j) = x(j) x(j) , j = 1, 2,3, 4,5.

sX( j)

Для этого обратимся к программе «Описательные статистики» (с помощью выбора пункта меню «Анализ | Описательные статистики | Описательные…»). В окне ввода параметров выберем переменные «x(1)», «x(2)», «x(3)», «x(4)», «x(5)» и отметим флажок «Сохранить стандартизованные значения в переменных» (рис. 3.7.1).

Рис. 3.7.1. Окно ввода данных программы «Описательные статистики»

Стандартизованные значения признаков x(1), x(2), x(3), x(4), x(5) на 20 объектах появились в результате работы программы в окне ввода данных PASW Statistics под именами «Zx1», «Zx2», «Zx3», «Zx4», «Zx5». Сохраним их для

дальнейшего использования.

Обратимся (с помощью выбора пункта меню «Анализ | Классификация | Иерархическая кластеризация…») к программе «Иерархический кластерный анализ» (рис. 3.7.2) для иерархического кластерного анализа стандартизованных признаков z(1), z(2), z(3), z(4), z(5). Укажем, что объекты — страны расположены по строкам («Кластеризовать: Наблюдения»), а в результатах работы программы нужно обозначать их с помощью названий («Метить значениями: Страна»).

77

В окне ввода параметров метода иерархического кластерного анализа, вызываемом нажатием кнопки «Метод…» (рис. 3.7.3), укажем, что необходимо использовать метод ближайшего соседа («Метод: Ближайший сосед») с использованием евклидовой метрики расстояний («Мера: Интервальная: Расстояние Евклида»).

Рис. 3.7.2. Окно ввода данных программы «Иерархический кластерный анализ»

Рис. 3.7.3. Окно «Иерархический кластерный анализ: Метод»

Замечание. В процедурах иерархического кластерного анализа можно стандартизовать наблюдения, выбрав соответствующий пункт выпадающего списка «Стандартиза-

78

ция» в окне «Иерархический кластерный анализ: Метод». Однако процедура метода К-

средних, применяемого далее в этой работе, и процедура дискриминантного анализа, применяемая в работе 8, не дают возможности автоматической стандартизации исходных данных.

В окне «Иерархический кластерный анализ: Графики», вызываемом нажатием кнопки «Графики…» (рис. 3.7.4), установим флажок «Дендрограмма», указав, что в результатах необходимо получить дендрограмму. В окне «Иерархический кластерный анализ: Статистики», вызываемом нажатием кнопки «Статистики…» (рис. 3.7.5), укажем, что необходимо сохранить в результатах работы программы протокол объединения кластеров («Порядок агломерации») и матрицу расстояний между кластерами («Матрица близостей»).

Рис. 3.7.4. Окно «Иерархический кластерный анализ: Графики»

Рис. 3.7.5. Окно «Иерархический кластерный анализ: Статистики»

В окне «Иерархический кластерный анализ: Сохранение», вызываемом нажатием кнопки «Сохранить…» (рис. 3.7.6), укажем, что необходимо сохра-

нить в качестве новой переменной принадлежность страны к одному из двух кластеров («Одно решение: 2 кластера»).

79

Рис. 3.7.6. Окно «Иерархический кластерный анализ: Сохранение»

2. а) Перейдем к рассмотрению результатов работы программы (рис. 3.7.7).

В матрице расстояний (таблица «Матрица близости») указаны евклидо-

вы расстояния между объектами, например, евклидово расстояние между первым объектом (Австралией) и двадцатым (ЮАР) равно

5

l1,20 = (z1(i) - z20(i) )2 = 13720,073 . i=1

б) Используя матрицу расстояний, реализуем иерархическую агломеративную процедуру «ближний сосед», согласно которой на каждом шаге (уровне иерархии) формируется новый агломерат — объединение из двух кластеров, сформированных на предыдущем шаге.

На начальном шаге (на нулевом уровне иерархии) исходные 20 объектов рассматриваются как 20 одноэлементных кластеров K1, K2, …, K20.

Затем на каждом следующем уровне к матрице расстояний между кластерами, полученной на предыдущем уровне, применяются следующие операции:

·находятся два кластера Ks и Kt, расстояние между которыми минимально; они объединяются в один кластер (обозначим его Ks Å Kt ), при

этом полагается, что расстояние от полученного кластера до него самого равно нулю (так, на первом шаге объединения, согласно протоколу объединения, приведенному в таблице «Шаги агломерации», объеди-

няются шестой и восемнадцатый объекты, поскольку расстояние между ними (0,134) является минимальным);

·за расстояние между объединенным кластером Ks Å Kt и каждым из оставшихся кластеров Ki (i ¹ s,i ¹ t) принимается минимальное из расстояний l(Ks;Ki ) и l(Kt ;Ki ) , которые зафиксированы в матрице расстояний на предыдущем уровне, т. е. l(Ks Å Kt ,Ki ) =min{l(Ks,Ki );l(Kt ,Ki )} ;

расстояния между кластерами, отличными от кластеров Ks и Kt, остают-

ся такими же, как и на предыдущем уровне; вычисленные расстояния записываются в виде матрицы, размерность которой на единицу меньше размерности матрицы предыдущего уровня.

80