Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Практикум по прикладой статистике

.pdf
Скачиваний:
120
Добавлен:
02.05.2015
Размер:
4.48 Mб
Скачать

Рис. 3.14. Матрица коэффициентов факторных значений

Рис. 3.15. Значения вкладов наблюдений в вариацию главных компонент

60

Рис. 3.16. Общности переменных

18. Перейти на вкладку Описательные (Descriptives). На вкладке представлены возможности описательного анализа, корреляционного анализа, а также графического представления переменных.

Выводы:

В результате проведения компонентного анализа размерность исходного информационного пространства снижена до двух

61

главных компонент. Выделенные компоненты объясняют 92,2% вариации исходных переменных.

Первая главная компонента интерпретируется как уровень экономического развития, вторая компонента – уровень социального развития (интерпретация компонент дана с учетом изменения знаков коэффициентов матрицы факторных нагрузок). Результаты ранжирования районов по первой главной компоненте приведены в таблице 3.4.

Таблица 3.4 Ранжирование по уровню экономического развития (первой главной

компоненте) сельских районов Республики Бурятия

Район

Ранг

Значение первой главной компоненты

Окинский

1

4,42926

Муйский

2

2,93145

Северо-Байкальский

3

1,97888

Баунтовский

4

1,57663

Селенгинский

5

0,57126

Кабанский

6

0,53082

Мухоршибирский

7

0,36465

Заиграевский

8

-0,03503

Прибайкальский

9

-0,46986

Тункинский

10

-0,48732

Хоринский

11

-0,71240

Закаменский

12

-0,76240

Курумканский

13

-0,85033

Баргузинский

14

-0,86629

Кяхтинский

15

-0,96569

Тарбагатайский

16

-0,98493

Кижингинский

17

-1,01990

Еравнинский

18

-1,17772

Бичурский

19

-1,22117

Джидинский

20

-1,34296

Иволгинский

21

-1,48696

62

Задания для самостоятельной работы

Задача 3.1. Для оценки удовлетворенности населения жизнью проведен социологический опрос в 80 странах мира. В таблице представлены агрегированные результаты проведенного опроса в разрезе стран, единицей измерения показателей является доля (%) респондентов, положительно оценивающих параметр. В качестве основных параметров удовлетворенности жизнью выбраны следующие:

х1 – работа, %; х2 – здоровье, %;

х3 - материальное благополучие, %; х4 - достижение поставленных целей, %; х5 - социальный статус, %; х6 - социальные контакты, %.

Необходимо с помощью метода главных компонент выявить факторы удовлетворенности населения жизнью, ранжировать страны по уровню удовлетворенности населения жизнью.

Таблица 3.5 Результаты опроса населения стран об удовлетворенности жизнью

Страна

 

 

 

Показатели

 

 

 

 

 

х1

х2

х3

х4

х5

х6

1

Израиль

 

80

80

71

88

81

85

2

Греция

 

80

82

57

90

92

79

3

Словакия

 

76

72

47

85

78

93

4

Эстония

 

79

64

46

72

79

85

5

Венгрия

 

83

69

43

88

88

90

6

Португалия

 

90

80

47

92

93

87

7

Польша

 

82

72

67

87

91

89

8

Чили

 

81

73

68

90

93

83

9

Латвия

 

79

63

33

79

80

78

10

Хорватия

 

78

77

48

83

74

90

11

Болгария

 

73

67

29

77

77

81

12

Тринидад и Тобаго

 

76

82

40

97

93

85

13

Сербия

 

73

73

35

84

77

82

14

Белоруссия

 

66

55

34

70

71

88

 

 

63

 

 

 

 

 

 

Продолжение таблицы 3.5

15

Перу

 

74

72

54

96

89

79

16

Албания

 

72

75

43

78

68

79

17

Россия

 

74

56

36

79

83

88

18

Казахстан

 

82

68

51

88

81

88

19

Азербайджан

 

73

68

42

87

79

72

20

Босния и Герцеговина

 

76

75

39

80

67

74

21

Украина

 

71

55

23

74

78

81

22

Иран

 

71

82

55

87

81

62

23

Югославия

 

71

82

34

93

81

78

24

Грузия

 

63

50

22

86

83

54

25

Армения

 

61

53

31

93

89

67

26

Эквадор

 

80

76

57

98

93

78

27

Гайана

 

79

83

69

90

75

83

28

Ямайка

 

82

88

50

98

80

91

29

Турция

 

71

76

44

85

68

64

30

Доминиканская Республика

 

69

80

57

96

92

84

31

Сальвадор

 

82

80

60

97

89

72

32

Шри-Ланка

 

86

77

58

91

76

82

33

Таиланд

 

91

79

63

95

75

82

34

Боливия

 

83

79

67

94

90

82

35

Парагвай

 

85

84

63

93

96

89

36

Филиппины

 

83

77

68

96

94

77

37

Ботсвана

 

58

67

41

92

83

83

38

Молдова

 

68

60

39

79

73

83

39

Гана

 

84

87

64

95

77

84

40

Намибия

 

84

87

61

98

86

83

41

Гондурас

 

84

83

65

95

91

81

42

Индонезия

 

63

83

62

95

92

78

43

Киргизия

 

78

74

48

91

86

85

44

ЮАР

 

66

79

42

97

83

88

45

Таджикистан

 

78

75

69

91

76

65

46

Вьетнам

 

72

79

59

98

92

79

47

Марокко

 

69

88

71

90

89

85

48

Никарагуа

 

80

80

62

98

91

83

49

Индия

 

74

85

61

91

72

66

50

Камбоджи

 

80

69

51

81

87

82

51

Кения

 

57

70

25

98

78

79

52

Бангладеш

 

76

73

63

94

87

53

53

Гана

 

54

66

34

98

88

63

 

 

64

 

 

 

 

 

 

Продолжение таблицы 3.5

54

Камерун

63

69

40

93

85

73

55

Йемен

74

80

53

88

84

75

56

Мадагаскар

46

76

24

96

77

77

57

Мавритания

57

79

47

93

85

81

58

Нигерия

65

80

40

92

81

72

59

Уганда

53

64

35

96

79

85

60

Сенегал

39

68

27

89

85

81

61

Гаити

51

51

35

81

66

64

62

Ангола

72

67

54

90

83

58

63

Танзания

45

67

21

95

74

76

64

Замбия

48

78

34

93

83

62

65

Руанда

41

64

37

88

77

56

66

Малави

62

77

64

99

88

72

67

Судан

65

77

64

97

89

89

68

Афганистан

71

79

53

83

64

54

69

Гвинея

68

75

27

96

86

58

70

Эфиопия

50

79

33

89

74

76

71

Сьерра Леон

49

47

19

98

81

59

 

Центрально-Африканская

 

 

 

 

 

 

72

республика

78

81

31

96

74

56

73

Мали

30

71

30

99

86

75

74

Буркина-Фасо

46

70

27

94

83

73

75

Либерия

47

70

46

100

82

58

76

Чад

78

69

52

93

79

57

77

Мозамбик

74

82

46

93

89

75

78

Нигер

54

82

52

99

93

77

79

Конго

60

74

40

98

79

67

80

Зимбабве

49

72

27

91

81

81

Задача 3.2. По данным задачи 2.1. провести компонентный анализ.

Распределение показателей по вариантам выполнения задания:

Вариант 1 - х1; х3; х4; х6; х8; х9; х10; Вариант 2 - х1; х3; х4; х7; х8; х9; х11; Вариант 3 - х2; х4; х5; х6; х8; х9; х10; Вариант 4 - х2; х4; х5; х7; х8; х9; х11.

65

Тема 4. Кластерный анализ

Теоретические основы

Кластерный анализ – это совокупность статистических методов, позволяющих классифицировать многомерные наблюдения в относительно однородные группы. Полученные в результате разбиения классы объектов принято называть

кластерами.

Кластерный анализ включает в себя набор различных процедур классификации, применяемых в зависимости от специфики исследуемых объектов, решаемой задачи классификации. Методы кластерного анализа имеют важное практическое значение в тех отраслях науки, которые связаны с изучением массовых явлений и процессов: биология, медицина, психология, социология, экономика. Кластер-анализ используется чаще всего в случаях, когда отсутствует априорная информация относительно классов: не указаны четкие границы каждого класса, неизвестно количество классов в исследуемой совокупности.

Применение методов кластерного анализа позволяет решать следующие задачи:

построение научно обоснованных классификаций объектов;

выявление внутренних связей между объектами исследуемой совокупности;

сокращение размерности данных.

Вчастности, в экономических исследованиях кластерный анализ применяется для построения классификации экономических объектов, сегментации рынка, изучения поведения потребителей и пр.

Взадачах кластерного анализа удобнее всего представлять исходные данные в виде матрицы Х, где n объектов характеризуются k признаками:

 

х

x

...

х

 

 

11

12

 

1k

x21

x22

...

x2k

Х

 

...

...

...

.

...

 

 

 

xn2

...

 

 

xn1

xnk

 

 

66

 

 

 

Числовые значения хij, входящие в матрицу Х, могут соответствовать трем типам переменным: количественным, ранговым и качественным. Количественные переменные упорядочены и над ними можно производить арифметические операции. Ранговые переменные обладают свойством упорядоченности. Качественные переменные принимают два и более значения, они не отражают упорядоченность и над ними нельзя производить арифметические операции.

Переменные, входящие в таблицу исходных данных, должны соответствовать одному типу. Если в матрице Х имеются как количественные, так и ранговые и / или качественные переменные, тогда количественные переменные сводят к ранговым путем их разбивки на интервалы, последующего упорядочения интервалов и нумерации натуральными числами.

В случае, когда все переменные являются количественными, необходимо привести их к сопоставимому виду путем нормирования исходных данных одним из следующих способов:

1.

z

 

 

xij

 

x j

;

 

 

 

 

 

 

 

 

 

ij

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

ij

 

x min

 

 

 

 

 

 

 

 

 

2.

z

 

 

 

 

 

 

 

j

 

 

;

 

 

 

 

 

 

ij

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xmax

 

xmin

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j

 

 

 

 

 

j

 

 

 

 

 

 

 

 

 

3.

z

 

 

xij

 

 

, z

 

 

xij

, z

 

 

xij

.

 

 

ij

 

 

 

x max

 

 

 

ij

 

 

x min

 

ij

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j

 

 

 

 

 

 

j

 

 

 

 

 

 

 

 

j

 

 

 

 

Нормирование исходных данных позволяет устранить влияние различий масштаба показателей на результат классификации. А для учета степени важности признаков для классификации наблюдений исследователь может придать переменным веса. Например для классификации регионов по уровню экономического развития отобраны следующие переменные: х1 – среднедушевые доходы населения, х2 – ВРП на душу населения, х3 – инвестиции на душу населения. В этом случае переменным можно задать веса wj пропорционально их степени важности для характеристики уровня экономического развития: wx1=0,3, wx2=0,4, wx3=0,3.

67

Сходство или различие классифицируемых объектов Xi и Xj устанавливается в зависимости от метрического расстояния d(Xi , Xj) между ними. В кластерном анализе в зависимости от цели исследования, природы рассматриваемых признаков, полноты априорных сведений о характере вероятностного распределения переменных используются различные меры расстояния между классифицируемыми объектами.

Так в случае зависимых переменных и их различной значимости в решении задачи классификации используется

расстояние Махаланобиса, задаваемое формулой:

d X i , X j X i X j 1 X i X j ,

где Σ– ковариационная матрица генеральной совокупности, из которой извлекаются наблюдения, – некоторая симметричная неотрицательно-определенная матрица весовых коэффициентов, которая чаще всего выбирается диагональной.

Следующие три вида расстояний являются частными случаями расстояния Махаланобиса.

Обычное Евклидово расстояние применяется в случаях, если переменные:

распределены в соответствии с многомерным нормальным законом, т.е. все компоненты векторов наблюдений взаимно независимы и имеют одну и ту же дисперсию;

однородны по физическому смыслу, причем установлено, что все они важны для классификации;

признаковое пространство совпадает с геометрическим, понятие близости объектов соответственно совпадает с понятием геометрической близости в этом пространстве.

Соответствующая формула имеет вид:

d X i , X j

p

xi k x jk 2 .

 

k 1

Взвешенное Евклидово расстояние применяется в случае,

если каждому признаку классификации удается приписать некоторый вес, соответствующий степени важности признака в решении задачи классификации. Обычно определение весов связано с дополнительными исследованиями, например организацией

68

опроса экспертов и обработкой их мнений. Взвешенное Евклидово расстояние определяется по формуле:

 

d X i , X j

p

xi k x jk 2 .

 

 

 

wk

 

 

 

 

k 1

 

 

 

Хеммингово

расстояние

используется

в

случае

классификации по признакам, задаваемым дихотомическими переменными, и имеет вид:

d X i , X j p xi s x js . s 1

Некоторые алгоритмы кластерного анализа требуют определения расстояния p между группами (классами) объектов Sl и Sm. Наиболее употребительными методами определения меры сходства между классами являются:

 

метод

 

«ближайшего

 

 

 

соседа»

pmin

Sl , Sm min

d X i , X j ;

 

 

 

 

 

 

 

 

 

X i Sl , X j

Sm

 

 

 

 

 

 

 

 

d Xi , X j ;

 

метод «дальнего соседа» pmax Sl , Sm

 

 

max

 

 

 

 

 

 

 

 

 

Xi Sl , X j Sm

 

центроидный метод

p Sl , Sm d

 

l ,

 

m

 

 

X

X

;

 

метод средней связи

pср Sl , Sm

1

 

d X i , X j .

 

n n

 

 

 

 

 

 

 

 

 

 

 

 

 

l m Xi Sl X j Sm

Рис. 4.1. Метод «ближайшего соседа» Рис. 4.2. Метод «дальнего соседа»

Рис. 4.3. Центроидный метод

69