Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Домашняя работа №2 по МСМ Нарышкиной Дарьи, С31...doc
Скачиваний:
4
Добавлен:
14.11.2019
Размер:
1.35 Mб
Скачать

Глава 2. «Кластерный анализ»

§1. «Построение и анализ дендрограмм»

Вначале проведем стандартизацию переменных, линейным преобразованием добившись разброса значений от 0 до 1.

Для определения расстояния между парой кластеров могут использоваться разные подходы:

1) Среднее расстояние между кластерами (Межгрупповые связи)

По результатам работы иерархического кластерного анализа составили протокол объединения объектов (Таблица 5) и дендрограмму, демонстрирующую ход этого объединения (Рисунок 4).

Таблица 5 «Протокол объединения объектов в иерархическом кластерном анализе»

Шаги агломерации

Этап

Кластер объединен с

Коэффициенты

Этап первого появления кластера

Следующий этап

Кластер 1

Кластер 2

Кластер 1

Кластер 2

1

29

42

,003

0

0

11

2

17

32

,008

0

0

4

3

5

7

,011

0

0

6

4

17

34

,014

2

0

13

5

2

10

,014

0

0

7

6

1

5

,022

0

3

9

7

2

15

,022

5

0

22

8

6

14

,023

0

0

9

9

1

6

,030

6

8

15

10

12

44

,035

0

0

29

11

11

29

,035

0

1

15

12

22

33

,036

0

0

30

13

8

17

,045

0

4

21

14

3

43

,045

0

0

22

15

1

11

,046

9

11

16

16

1

9

,049

15

0

21

17

21

31

,057

0

0

28

18

16

36

,059

0

0

20

19

28

40

,062

0

0

28

20

16

18

,070

18

0

25

21

1

8

,077

16

13

25

22

2

3

,082

7

14

27

23

23

24

,082

0

0

31

24

25

26

,118

0

0

32

25

1

16

,129

21

20

29

26

38

39

,138

0

0

32

27

2

4

,144

22

0

33

28

21

28

,159

17

19

33

29

1

12

,159

25

10

34

30

19

22

,187

0

12

37

31

23

37

,201

23

0

37

32

25

38

,215

24

26

35

33

2

21

,232

27

28

34

34

1

2

,267

29

33

40

35

25

35

,289

32

0

40

36

13

41

,299

0

0

41

37

19

23

,342

30

31

39

38

27

30

,444

0

0

42

39

19

20

,450

37

0

42

40

1

25

,496

34

35

41

41

1

13

,608

40

36

43

42

19

27

,730

39

38

43

43

1

19

1,024

41

42

0

Из Таблицы 5 видно, что на первом шаге произошло объединение 29-го и 42-го объектов (Пензенской области и Республики Саха), поскольку между этими объектами было наименьшее расстояние, равное 0,003 (колонка Коэффициенты). В колонке Следующий этап указывается, что в следующий раз тот кластер, который получен на первом шаге, будет задействован в объединении на одиннадцатом шаге. Таким образом, когда на одиннадцатом шаге указано, что одним из объединяемых объектов является объект номер 29 (расстояние объединения 0,035), надо иметь в виду, что это не сам 29-й объект, а уже то, что получилось в результате объединения 29-го и 42-го объектов на первом шаге.

Дендрограмма (Рисунок 4) наглядно демонстрирует, что, например, объект «Ставропольский край» располагается достаточно далеко от других объектов и был объединен с группой объектов «Ростовская область–Челябинская область–Республика Башкортостан–Республика Татарстан–Краснодарский край–Красноярский край» только на 39-ом шаге алгоритма. Кроме того, пара объектов «Пермский край–Самарская область» объединяется с указанной ранее группой объектов лишь на предпоследнем шаге, что свидетельствует об аномальности этих наблюдений в исследуемой совокупности регионов России.

На основании графического представления результатов кластерного анализа можно сделать вывод, что наиболее предпочтительным является разбиение регионов на два кластера: S(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 21, 25, 26, 28, 29, 31, 32, 34, 35, 36, 38, 39, 40, 41, 42, 43, 44) и S(19, 20, 22, 23, 24, 27, 30, 33, 37 – Краснодарский край, Ставропольский край, Ростовская область, Республика Башкортостан, Республика Татарстан, Пермский край, Самарская область, Челябинская область, Красноярский край), когда пороговое расстояние находится в интервале 0,730<dпор<1,024.

Рисунок 4 «Дендрограмма, демонстрирующая объединение объектов в иерархическом кластерном анализе»

Альтернативная гипотеза о числе кластеров, равном трем (в отдельный кластер выделяется пара объектов «Пермский край–Самарская область»), отвергается – в данном случае интервал изменения расстояния объединения существенно уже 0,608<dпор<0,730.

2) Среднее расстояние между всеми объектами пары кластеров с учетом расстояний внутри кластеров (Внутригрупповые связи).

Протокол объединения объектов (Таблица 1) и дендрограмма, демонстрирующая ход этого объединения (Рисунок 1), представлены в Приложениях к настоящему Отчету.

Наилучшим является разбиение на два кластера: S1(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 20, 21, 25, 26, 27, 28, 29, 31, 32, 34, 35, 36, 38, 39, 40, 41, 42, 43, 44) и S2(19, 22, 23, 24, 30, 33, 37 – Краснодарский край, Ростовская область, Республика Башкортостан, Республика Татарстан, Самарская область, Челябинская область, Красноярский край), после предпоследнего шага классификации, когда интервал изменения расстояния объединения наибольший 0,363<dпор<0,552.

3) Расстояние между ближайшими соседями – ближайшими объектами кластеров.

Протокол объединения объектов (Таблица 2) и дендрограмма, демонстрирующая ход этого объединения (Рисунок 2), представлены в Приложениях к настоящему Отчету.

Наиболее предпочтительным является разбиение на три кластера: S1(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44), S2(13 –Архангельская область), и S3(30 – Самарская область), когда интервал изменения расстояния объединения наибольший 0,200<dпор<0,299.

4) Расстояние между самыми далекими соседями.

Протокол объединения объектов (Таблица 3) и дендрограмма, демонстрирующая ход этого объединения (Рисунок 3), представлены в Приложениях к настоящему Отчету.

Наиболее целесообразным является разбиение на два кластера: S1(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 25, 26, 29, 32, 34, 35, 36, 38, 39, 41, 42, 43, 44) и S2(19, 20, 21, 22, 23, 24, 27, 28, 30, 31, 33, 37, 40 – Краснодарский край, Ставропольский край, Волгоградская область, Ростовская область, Республика Башкортостан, Республика Татарстан, Пермский край, Оренбургская область, Самарская область, Саратовская область Челябинская область, Красноярский край, Омская область), после предпоследнего шага классификации, когда пороговое расстояние находится в интервале 1,623<dпор<2,629.

5) Метод Варда – в качестве расстояния между объектами берется прирост суммы квадратов расстояний объектов до центров кластеров, получаемый в результате их объединения.

Протокол объединения объектов (Таблица 4) и дендрограмма, демонстрирующая ход этого объединения (Рисунок 4), представлены в Приложениях к настоящему Отчету.

Наилучшим является разбиение на два кластера: S1(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 25, 26, 28, 29, 32, 34, 35, 36, 38, 39, 40, 41, 42, 43, 44) и S2(19, 20, 21, 22, 23, 24, 27, 30, 31, 33, 37 – Краснодарский край, Ставропольский край, Волгоградская область, Ростовская область, Республика Башкортостан, Республика Татарстан, Пермский край, Самарская область, Саратовская область Челябинская область, Красноярский край), после предпоследнего шага классификации, когда интервал изменения расстояния объединения наибольший 7,148<dпор<11,876.

Таким образом, сравнивая результаты пяти разбиений 44 регионов на однородные группы можно отметить, что наиболее устойчивым и, следовательно, предпочтительным, является разбиение на два кластера, соответствующее разбиению с использованием метода межгрупповых связей: S1(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 21, 25, 26, 28, 29, 31, 32, 34, 35, 36, 38, 39, 40, 41, 42, 43, 44) и S2(19, 20, 22, 23, 24, 27, 30, 33, 37 – Краснодарский край, Ставропольский край, Ростовская область, Республика Башкортостан, Республика Татарстан, Пермский край, Самарская область, Челябинская область, Красноярский край).