Практикум по прикладой статистике
.pdfРис. 3.14. Матрица коэффициентов факторных значений
Рис. 3.15. Значения вкладов наблюдений в вариацию главных компонент
60
Рис. 3.16. Общности переменных
18. Перейти на вкладку Описательные (Descriptives). На вкладке представлены возможности описательного анализа, корреляционного анализа, а также графического представления переменных.
Выводы:
В результате проведения компонентного анализа размерность исходного информационного пространства снижена до двух
61
главных компонент. Выделенные компоненты объясняют 92,2% вариации исходных переменных.
Первая главная компонента интерпретируется как уровень экономического развития, вторая компонента – уровень социального развития (интерпретация компонент дана с учетом изменения знаков коэффициентов матрицы факторных нагрузок). Результаты ранжирования районов по первой главной компоненте приведены в таблице 3.4.
Таблица 3.4 Ранжирование по уровню экономического развития (первой главной
компоненте) сельских районов Республики Бурятия
Район |
Ранг |
Значение первой главной компоненты |
Окинский |
1 |
4,42926 |
Муйский |
2 |
2,93145 |
Северо-Байкальский |
3 |
1,97888 |
Баунтовский |
4 |
1,57663 |
Селенгинский |
5 |
0,57126 |
Кабанский |
6 |
0,53082 |
Мухоршибирский |
7 |
0,36465 |
Заиграевский |
8 |
-0,03503 |
Прибайкальский |
9 |
-0,46986 |
Тункинский |
10 |
-0,48732 |
Хоринский |
11 |
-0,71240 |
Закаменский |
12 |
-0,76240 |
Курумканский |
13 |
-0,85033 |
Баргузинский |
14 |
-0,86629 |
Кяхтинский |
15 |
-0,96569 |
Тарбагатайский |
16 |
-0,98493 |
Кижингинский |
17 |
-1,01990 |
Еравнинский |
18 |
-1,17772 |
Бичурский |
19 |
-1,22117 |
Джидинский |
20 |
-1,34296 |
Иволгинский |
21 |
-1,48696 |
62
Задания для самостоятельной работы
Задача 3.1. Для оценки удовлетворенности населения жизнью проведен социологический опрос в 80 странах мира. В таблице представлены агрегированные результаты проведенного опроса в разрезе стран, единицей измерения показателей является доля (%) респондентов, положительно оценивающих параметр. В качестве основных параметров удовлетворенности жизнью выбраны следующие:
х1 – работа, %; х2 – здоровье, %;
х3 - материальное благополучие, %; х4 - достижение поставленных целей, %; х5 - социальный статус, %; х6 - социальные контакты, %.
Необходимо с помощью метода главных компонент выявить факторы удовлетворенности населения жизнью, ранжировать страны по уровню удовлетворенности населения жизнью.
Таблица 3.5 Результаты опроса населения стран об удовлетворенности жизнью
№ |
Страна |
|
|
|
Показатели |
|
|
|
|
|
|
х1 |
х2 |
х3 |
х4 |
х5 |
х6 |
1 |
Израиль |
|
80 |
80 |
71 |
88 |
81 |
85 |
2 |
Греция |
|
80 |
82 |
57 |
90 |
92 |
79 |
3 |
Словакия |
|
76 |
72 |
47 |
85 |
78 |
93 |
4 |
Эстония |
|
79 |
64 |
46 |
72 |
79 |
85 |
5 |
Венгрия |
|
83 |
69 |
43 |
88 |
88 |
90 |
6 |
Португалия |
|
90 |
80 |
47 |
92 |
93 |
87 |
7 |
Польша |
|
82 |
72 |
67 |
87 |
91 |
89 |
8 |
Чили |
|
81 |
73 |
68 |
90 |
93 |
83 |
9 |
Латвия |
|
79 |
63 |
33 |
79 |
80 |
78 |
10 |
Хорватия |
|
78 |
77 |
48 |
83 |
74 |
90 |
11 |
Болгария |
|
73 |
67 |
29 |
77 |
77 |
81 |
12 |
Тринидад и Тобаго |
|
76 |
82 |
40 |
97 |
93 |
85 |
13 |
Сербия |
|
73 |
73 |
35 |
84 |
77 |
82 |
14 |
Белоруссия |
|
66 |
55 |
34 |
70 |
71 |
88 |
|
|
63 |
|
|
|
|
|
|
Продолжение таблицы 3.5
15 |
Перу |
|
74 |
72 |
54 |
96 |
89 |
79 |
16 |
Албания |
|
72 |
75 |
43 |
78 |
68 |
79 |
17 |
Россия |
|
74 |
56 |
36 |
79 |
83 |
88 |
18 |
Казахстан |
|
82 |
68 |
51 |
88 |
81 |
88 |
19 |
Азербайджан |
|
73 |
68 |
42 |
87 |
79 |
72 |
20 |
Босния и Герцеговина |
|
76 |
75 |
39 |
80 |
67 |
74 |
21 |
Украина |
|
71 |
55 |
23 |
74 |
78 |
81 |
22 |
Иран |
|
71 |
82 |
55 |
87 |
81 |
62 |
23 |
Югославия |
|
71 |
82 |
34 |
93 |
81 |
78 |
24 |
Грузия |
|
63 |
50 |
22 |
86 |
83 |
54 |
25 |
Армения |
|
61 |
53 |
31 |
93 |
89 |
67 |
26 |
Эквадор |
|
80 |
76 |
57 |
98 |
93 |
78 |
27 |
Гайана |
|
79 |
83 |
69 |
90 |
75 |
83 |
28 |
Ямайка |
|
82 |
88 |
50 |
98 |
80 |
91 |
29 |
Турция |
|
71 |
76 |
44 |
85 |
68 |
64 |
30 |
Доминиканская Республика |
|
69 |
80 |
57 |
96 |
92 |
84 |
31 |
Сальвадор |
|
82 |
80 |
60 |
97 |
89 |
72 |
32 |
Шри-Ланка |
|
86 |
77 |
58 |
91 |
76 |
82 |
33 |
Таиланд |
|
91 |
79 |
63 |
95 |
75 |
82 |
34 |
Боливия |
|
83 |
79 |
67 |
94 |
90 |
82 |
35 |
Парагвай |
|
85 |
84 |
63 |
93 |
96 |
89 |
36 |
Филиппины |
|
83 |
77 |
68 |
96 |
94 |
77 |
37 |
Ботсвана |
|
58 |
67 |
41 |
92 |
83 |
83 |
38 |
Молдова |
|
68 |
60 |
39 |
79 |
73 |
83 |
39 |
Гана |
|
84 |
87 |
64 |
95 |
77 |
84 |
40 |
Намибия |
|
84 |
87 |
61 |
98 |
86 |
83 |
41 |
Гондурас |
|
84 |
83 |
65 |
95 |
91 |
81 |
42 |
Индонезия |
|
63 |
83 |
62 |
95 |
92 |
78 |
43 |
Киргизия |
|
78 |
74 |
48 |
91 |
86 |
85 |
44 |
ЮАР |
|
66 |
79 |
42 |
97 |
83 |
88 |
45 |
Таджикистан |
|
78 |
75 |
69 |
91 |
76 |
65 |
46 |
Вьетнам |
|
72 |
79 |
59 |
98 |
92 |
79 |
47 |
Марокко |
|
69 |
88 |
71 |
90 |
89 |
85 |
48 |
Никарагуа |
|
80 |
80 |
62 |
98 |
91 |
83 |
49 |
Индия |
|
74 |
85 |
61 |
91 |
72 |
66 |
50 |
Камбоджи |
|
80 |
69 |
51 |
81 |
87 |
82 |
51 |
Кения |
|
57 |
70 |
25 |
98 |
78 |
79 |
52 |
Бангладеш |
|
76 |
73 |
63 |
94 |
87 |
53 |
53 |
Гана |
|
54 |
66 |
34 |
98 |
88 |
63 |
|
|
64 |
|
|
|
|
|
|
Продолжение таблицы 3.5
54 |
Камерун |
63 |
69 |
40 |
93 |
85 |
73 |
55 |
Йемен |
74 |
80 |
53 |
88 |
84 |
75 |
56 |
Мадагаскар |
46 |
76 |
24 |
96 |
77 |
77 |
57 |
Мавритания |
57 |
79 |
47 |
93 |
85 |
81 |
58 |
Нигерия |
65 |
80 |
40 |
92 |
81 |
72 |
59 |
Уганда |
53 |
64 |
35 |
96 |
79 |
85 |
60 |
Сенегал |
39 |
68 |
27 |
89 |
85 |
81 |
61 |
Гаити |
51 |
51 |
35 |
81 |
66 |
64 |
62 |
Ангола |
72 |
67 |
54 |
90 |
83 |
58 |
63 |
Танзания |
45 |
67 |
21 |
95 |
74 |
76 |
64 |
Замбия |
48 |
78 |
34 |
93 |
83 |
62 |
65 |
Руанда |
41 |
64 |
37 |
88 |
77 |
56 |
66 |
Малави |
62 |
77 |
64 |
99 |
88 |
72 |
67 |
Судан |
65 |
77 |
64 |
97 |
89 |
89 |
68 |
Афганистан |
71 |
79 |
53 |
83 |
64 |
54 |
69 |
Гвинея |
68 |
75 |
27 |
96 |
86 |
58 |
70 |
Эфиопия |
50 |
79 |
33 |
89 |
74 |
76 |
71 |
Сьерра Леон |
49 |
47 |
19 |
98 |
81 |
59 |
|
Центрально-Африканская |
|
|
|
|
|
|
72 |
республика |
78 |
81 |
31 |
96 |
74 |
56 |
73 |
Мали |
30 |
71 |
30 |
99 |
86 |
75 |
74 |
Буркина-Фасо |
46 |
70 |
27 |
94 |
83 |
73 |
75 |
Либерия |
47 |
70 |
46 |
100 |
82 |
58 |
76 |
Чад |
78 |
69 |
52 |
93 |
79 |
57 |
77 |
Мозамбик |
74 |
82 |
46 |
93 |
89 |
75 |
78 |
Нигер |
54 |
82 |
52 |
99 |
93 |
77 |
79 |
Конго |
60 |
74 |
40 |
98 |
79 |
67 |
80 |
Зимбабве |
49 |
72 |
27 |
91 |
81 |
81 |
Задача 3.2. По данным задачи 2.1. провести компонентный анализ.
Распределение показателей по вариантам выполнения задания:
Вариант 1 - х1; х3; х4; х6; х8; х9; х10; Вариант 2 - х1; х3; х4; х7; х8; х9; х11; Вариант 3 - х2; х4; х5; х6; х8; х9; х10; Вариант 4 - х2; х4; х5; х7; х8; х9; х11.
65
Тема 4. Кластерный анализ
Теоретические основы
Кластерный анализ – это совокупность статистических методов, позволяющих классифицировать многомерные наблюдения в относительно однородные группы. Полученные в результате разбиения классы объектов принято называть
кластерами.
Кластерный анализ включает в себя набор различных процедур классификации, применяемых в зависимости от специфики исследуемых объектов, решаемой задачи классификации. Методы кластерного анализа имеют важное практическое значение в тех отраслях науки, которые связаны с изучением массовых явлений и процессов: биология, медицина, психология, социология, экономика. Кластер-анализ используется чаще всего в случаях, когда отсутствует априорная информация относительно классов: не указаны четкие границы каждого класса, неизвестно количество классов в исследуемой совокупности.
Применение методов кластерного анализа позволяет решать следующие задачи:
построение научно обоснованных классификаций объектов;
выявление внутренних связей между объектами исследуемой совокупности;
сокращение размерности данных.
Вчастности, в экономических исследованиях кластерный анализ применяется для построения классификации экономических объектов, сегментации рынка, изучения поведения потребителей и пр.
Взадачах кластерного анализа удобнее всего представлять исходные данные в виде матрицы Х, где n объектов характеризуются k признаками:
|
х |
x |
... |
х |
|
|
11 |
12 |
|
1k |
|
x21 |
x22 |
... |
x2k |
||
Х |
|
... |
... |
... |
. |
... |
|
||||
|
|
xn2 |
... |
|
|
xn1 |
xnk |
||||
|
|
66 |
|
|
|
Числовые значения хij, входящие в матрицу Х, могут соответствовать трем типам переменным: количественным, ранговым и качественным. Количественные переменные упорядочены и над ними можно производить арифметические операции. Ранговые переменные обладают свойством упорядоченности. Качественные переменные принимают два и более значения, они не отражают упорядоченность и над ними нельзя производить арифметические операции.
Переменные, входящие в таблицу исходных данных, должны соответствовать одному типу. Если в матрице Х имеются как количественные, так и ранговые и / или качественные переменные, тогда количественные переменные сводят к ранговым путем их разбивки на интервалы, последующего упорядочения интервалов и нумерации натуральными числами.
В случае, когда все переменные являются количественными, необходимо привести их к сопоставимому виду путем нормирования исходных данных одним из следующих способов:
1. |
z |
|
|
xij |
|
x j |
; |
|
|
|
|
|
|
|
|
|
|||||
ij |
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
j |
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
x |
ij |
|
x min |
|
|
|
|
|
|
|
|
|
|||
2. |
z |
|
|
|
|
|
|
|
j |
|
|
; |
|
|
|
|
|
|
|||
ij |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
xmax |
|
xmin |
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
j |
|
|
|
|
|
j |
|
|
|
|
|
|
|
|
|
3. |
z |
|
|
xij |
|
|
, z |
|
|
xij |
, z |
|
|
xij |
. |
||||||
|
|
ij |
|
|
|
x max |
|
|
|
ij |
|
|
x min |
|
ij |
|
x |
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
j |
||||||
|
|
|
|
|
|
j |
|
|
|
|
|
|
|
|
j |
|
|
|
|
Нормирование исходных данных позволяет устранить влияние различий масштаба показателей на результат классификации. А для учета степени важности признаков для классификации наблюдений исследователь может придать переменным веса. Например для классификации регионов по уровню экономического развития отобраны следующие переменные: х1 – среднедушевые доходы населения, х2 – ВРП на душу населения, х3 – инвестиции на душу населения. В этом случае переменным можно задать веса wj пропорционально их степени важности для характеристики уровня экономического развития: wx1=0,3, wx2=0,4, wx3=0,3.
67
Сходство или различие классифицируемых объектов Xi и Xj устанавливается в зависимости от метрического расстояния d(Xi , Xj) между ними. В кластерном анализе в зависимости от цели исследования, природы рассматриваемых признаков, полноты априорных сведений о характере вероятностного распределения переменных используются различные меры расстояния между классифицируемыми объектами.
Так в случае зависимых переменных и их различной значимости в решении задачи классификации используется
расстояние Махаланобиса, задаваемое формулой:
d X i , X j X i X j 1 X i X j ,
где Σ– ковариационная матрица генеральной совокупности, из которой извлекаются наблюдения, – некоторая симметричная неотрицательно-определенная матрица весовых коэффициентов, которая чаще всего выбирается диагональной.
Следующие три вида расстояний являются частными случаями расстояния Махаланобиса.
Обычное Евклидово расстояние применяется в случаях, если переменные:
распределены в соответствии с многомерным нормальным законом, т.е. все компоненты векторов наблюдений взаимно независимы и имеют одну и ту же дисперсию;
однородны по физическому смыслу, причем установлено, что все они важны для классификации;
признаковое пространство совпадает с геометрическим, понятие близости объектов соответственно совпадает с понятием геометрической близости в этом пространстве.
Соответствующая формула имеет вид:
d X i , X j |
p |
xi k x jk 2 . |
|
|
k 1 |
Взвешенное Евклидово расстояние применяется в случае,
если каждому признаку классификации удается приписать некоторый вес, соответствующий степени важности признака в решении задачи классификации. Обычно определение весов связано с дополнительными исследованиями, например организацией
68
опроса экспертов и обработкой их мнений. Взвешенное Евклидово расстояние определяется по формуле:
|
d X i , X j |
p |
xi k x jk 2 . |
|
|
|
wk |
|
|
||
|
|
k 1 |
|
|
|
Хеммингово |
расстояние |
используется |
в |
случае |
классификации по признакам, задаваемым дихотомическими переменными, и имеет вид:
d X i , X j p xi s x js . s 1
Некоторые алгоритмы кластерного анализа требуют определения расстояния p между группами (классами) объектов Sl и Sm. Наиболее употребительными методами определения меры сходства между классами являются:
|
метод |
|
«ближайшего |
|
|
|
соседа» |
||||
pmin |
Sl , Sm min |
d X i , X j ; |
|
|
|
|
|
|
|
|
|
|
X i Sl , X j |
Sm |
|
|
|
|
|
|
|
|
d Xi , X j ; |
|
метод «дальнего соседа» pmax Sl , Sm |
|
|
max |
|||||||
|
|
|
|
|
|
|
|
|
Xi Sl , X j Sm |
||
|
центроидный метод |
p Sl , Sm d |
|
l , |
|
m |
|
||||
|
X |
X |
; |
||||||||
|
метод средней связи |
pср Sl , Sm |
1 |
|
d X i , X j . |
||||||
|
n n |
||||||||||
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
l m Xi Sl X j Sm |
Рис. 4.1. Метод «ближайшего соседа» Рис. 4.2. Метод «дальнего соседа»
Рис. 4.3. Центроидный метод
69