Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Анализ инвестиций в основные средства(Сушко).doc
Скачиваний:
111
Добавлен:
14.11.2019
Размер:
2.32 Mб
Скачать

Кластерный анализ

Следующим этапом данного исследования является кластерный анализ. Задачей кластерного анализа является разбиение выбранных регионов (n=56) на сравнительно небольшое число групп (кластеров) на основе их естественной близости относительно значений переменных xi. При проведении кластерного анализа мы предполагаем, что геометрическая близость двух или нескольких точек в пространстве означает физическую близость соответствующих объектов, их однородность (в нашем случае - однородность регионов по показателям, влияющим на инвестиции в основные средства).

На первой стадии кластерного анализа необходимо определиться с оптимальным числом выделяемых кластеров. Для этого необходимо провести иерархическую кластеризацию – последовательное объединение объектов в кластеры до тех пор, пока не останется два больших кластера, объединяющиеся в один на максимальном расстоянии друг от друга. Результат иерархического анализа (вывод об оптимальном количестве кластеров) зависит от способа расчета расстояния между кластерами. Таким образом, протестируем различные методы и сделаем соответствующие выводы.

Метод «ближнего соседа»

Если расстояние между отдельными объектами мы рассчитываем единым способом – как простое евклидово расстояние – расстояние между кластерами вычисляется разными методами. Согласно методу «ближайшего соседа», расстояние между кластерами соответствует минимальному расстоянию между двумя объектами разных кластеров.

Анализ в пакете SPSS проходит следующим образом. Сначала рассчитывается матрица расстояний между всеми объектами, а затем, на основе матрицы расстояний, объекты последовательно объединяются в кластеры (для каждого шага матрица составляется заново). Шаги последовательного объединения представлены в таблице:

Таблица 25. Шаги агломерации. Метод «ближайшего соседа»

Этап

Кластер объединен с

Коэффициенты

Этап первого появления кластера

Следующий этап

Кластер 1

Кластер 2

Кластер 1

Кластер 2

1

7

8

,003

0

0

8

2

17

18

,004

0

0

18

3

3

4

,004

0

0

27

4

14

15

,005

0

0

10

5

22

23

,005

0

0

13

6

9

10

,005

0

0

14

7

11

12

,005

0

0

19

8

6

7

,006

0

1

14

9

34

35

,007

0

0

20

10

13

14

,007

0

4

11

11

13

16

,009

10

0

19

12

27

28

,010

0

0

22

13

21

22

,010

0

5

31

14

6

9

,010

8

6

24

15

45

46

,010

0

0

42

16

24

25

,011

0

0

33

17

39

40

,012

0

0

28

18

17

19

,012

2

0

26

19

11

13

,012

7

11

24

20

34

36

,012

9

0

35

21

42

43

,012

0

0

39

22

27

29

,013

12

0

25

23

37

38

,014

0

0

28

24

6

11

,014

14

19

32

25

26

27

,014

0

22

30

26

17

20

,014

18

0

31

27

2

3

,015

0

3

29

28

37

39

,015

23

17

43

29

2

5

,016

27

0

32

30

26

30

,017

25

0

33

31

17

21

,018

26

13

38

32

2

6

,018

29

24

36

33

24

26

,019

16

30

37

34

31

32

,019

0

0

37

35

33

34

,020

0

20

43

36

1

2

,021

0

32

38

37

24

31

,021

33

34

40

38

1

17

,022

36

31

40

39

41

42

,024

0

21

45

40

1

24

,025

38

37

44

41

49

50

,027

0

0

49

42

44

45

,030

0

15

45

43

33

37

,033

35

28

44

44

1

33

,034

40

43

46

45

41

44

,042

39

42

46

46

1

41

,052

44

45

47

47

1

47

,074

46

0

48

48

1

48

,101

47

0

49

49

1

49

,103

48

41

53

50

52

53

,126

0

0

51

51

51

52

,163

0

50

52

52

51

54

,198

51

0

53

53

1

51

,208

49

52

54

54

1

55

,583

53

0

55

55

1

56

1,072

54

0

0

Как видно из Таблицы 26, на первом этапе объединились элементы 7 и 8, т. к. расстояние между ними было минимальным – 0,003. Далее расстояние между объединенными объектами увеличивается. По таблице также можно сделать вывод об оптимальном числе кластеров. Для этого нужно посмотреть, после какого шага происходит резкий скачок в величине расстояния, и вычесть номер этой агломерации из числа исследуемых объектов. В нашем случае: (56-53)=3 – оптимальное число кластеров.

Рисунок 5. Дендрограмма. Метод "ближайшего соседа"

Аналогичный вывод об оптимальном количестве кластеров можно сделать и глядя на дендрограмму (Рис. 5): следует выделить 3 кластера, причем в первый кластер войдут объекты под номерами 1-54 (всего 54 объекта), а во второй и третий кластеры – по одному объекту (под номерами 55 и 56 соответственно). Данный результат говорит о том, что первые 54 региона относительно однородны по показателям, влияющим на инвестиции в основные средства, в то время как объекты под номерами 55 (Республика Дагестан) и 56 (Новосибирская область) значительно выделяются на общем фоне. Стоит заметить, что данные субъекты имеют самые большие объемы инвестиций в основные средства среди всех отобранных регионов. Этот факт еще раз доказывает высокую зависимость результирующей переменной (объема инвестиций) от выбранных независимых переменных.

Аналогичные рассуждения проводятся для других методов расчета расстояния между кластерами.

Метод «дальнего соседа»

Таблица 26. Шаги агломерации. Метод "дальнего соседа"

Этап

Кластер объединен с

Коэффициенты

Этап первого появления кластера

Следующий этап

Кластер 1

Кластер 2

Кластер 1

Кластер 2

1

7

8

,003

0

0

9

2

17

18

,004

0

0

26

3

3

4

,004

0

0

19

4

14

15

,005

0

0

12

5

22

23

,005

0

0

18

6

9

10

,005

0

0

24

7

11

12

,005

0

0

24

8

34

35

,007

0

0

22

9

6

7

,009

0

1

27

10

27

28

,010

0

0

25

11

45

46

,010

0

0

31

12

13

14

,011

0

4

21

13

24

25

,011

0

0

34

14

39

40

,012

0

0

30

15

42

43

,012

0

0

29

16

37

38

,014

0

0

30

17

19

20

,014

0

0

26

18

21

22

,014

0

5

34

19

2

3

,017

0

3

33

20

29

30

,017

0

0

35

21

13

16

,018

12

0

36

22

34

36

,018

8

0

32

23

31

32

,019

0

0

38

24

9

11

,021

6

7

36

25

26

27

,022

0

10

35

26

17

19

,026

2

17

39

27

5

6

,026

0

9

37

28

49

50

,027

0

0

46

29

41

42

,034

0

15

41

30

37

39

,035

16

14

44

31

44

45

,035

0

11

41

32

33

34

,037

0

22

38

33

1

2

,037

0

19

37

34

21

24

,042

18

13

39

35

26

29

,044

25

20

45

36

9

13

,046

24

21

42

37

1

5

,063

33

27

42

38

31

33

,077

23

32

44

39

17

21

,082

26

34

45

40

47

48

,101

0

0

46

41

41

44

,105

29

31

48

42

1

9

,117

37

36

49

43

52

53

,126

0

0

47

44

31

37

,134

38

30

48

45

17

26

,142

39

35

49

46

47

49

,187

40

28

51

47

51

52

,265

0

43

50

48

31

41

,269

44

41

51

49

1

17

,275

42

45

52

50

51

54

,439

47

0

53

51

31

47

,504

48

46

52

52

1

31

,794

49

51

55

53

51

55

,902

50

0

54

54

51

56

1,673

53

0

55

55

1

51

2,449

52

54

0

При методе «дальнего соседа» расстояние между кластерами рассчитывается как максимальное расстояние между двумя объектами в двух разных кластерах. Согласно Таблице 27, оптимальное число кластеров равно (56-53)=3.

Рисунок 6. Дендрограмма. Метод "дальнего соседа"

Согласно дендрограмме, оптимальным решением также будет выделение 3 кластеров: в первый кластер войдут регионы под номерами 1-50 (50 регионов), во второй – под номерами 51-55 (5 регионов), в третий – последний регион под номером 56.

Метод «центра тяжести»

При методе «центра тяжести» за расстояние между кластерами принимается евклидово расстояние между «центрами тяжести» кластеров – средними арифметическими их показателей xi.

При анализе таблицы шагов объединения (далее не будем приводить саму таблицу из-за ее громоздкости) выяснилось, что оптимальное количество кластеров равно (56-52)=4.

Далее рассмотрим дендрограмму:

Рисунок 7. Дендрограмма. Метод "центра тяжести"

На Рисунке 7 видно, что оптимальное число кластеров следующее: 1 кластер – 1-47 объекты; 2 кластер – 48-54 объекты (всего 6); 3 кластер – 55 объект; 4 кластер – 56 объект.

Принцип «средней связи»

В данном случае расстояние между кластерами равно среднему значению расстояний между всеми возможными парами наблюдений, причем одно наблюдение берется из одного кластера, а второе – соответственно, из другого.

Анализ таблицы шагов агломерации показал, что оптимальное количество кластеров равно (56-52)=4. Сравним этот вывод с выводом, полученным при анализе дендрограммы. На Рисунке 8 видно, что в 1 кластер войдут объекты под номерами 1-50, во 2 кластер – объекты 51-54 (4 объекта), в 3 кластер – 55 регион, в 4 кластер – 56 регион.

Рисунок 8. Дендрограмма. Метод "средней связи"

Метод «средней связи элементов разных кластеров и внутри групп»

В данном методе расстояние между кластерами рассчитывается на основании всех возможных пар наблюдений, принадлежащих обоим кластерам, причем учитываются также пары наблюдений, образующиеся внутри кластеров. В этом случае получаются интересные результаты. Оптимальное число кластеров равно 4: в первый кластер войдут 34 региона, во второй – 18 регионов, в третий – 3 региона (под номерами 52-54), а в 4 – один регион под номером 56.

Рисунок 9. Дендрограмма №5

На основании иерархического кластерного анализа, проведенного различными методами, можно сделать вывод, что оптимальное число кластеров равно 4.

Метод k-средних

Несмотря достоинства иерархического метода (можно отследить поэтапное объединение объектов в кластеры), при большом количестве объектов проводить данный анализ весьма сложно. Поэтому в случае, когда число объектов n велико, применяют метод k-средних. Идея этого метода состоит в том, чтобы разбить анализируемое множество объектов n на заранее известное число кластеров k, причем данное разбиение должно минимизировать функционал качества – сумму внутриклассовых дисперсий:

При помощи пакета SPSS рассчитаем значения средних показателей в кластерах:

Таблица 27. Конечные центры кластеров

 

Кластер

 

1

2

3

4

X1

4195240

25034440

68079262

89474435

X2

29617943

103000000

233000000

400000000

X3

2070030

7251361

17833344

24428385

X4

5397553

31181165

86732878

271000000

X5

737058

5586734

23933823

49465146

X6

148188

983240

2935974

21539977

На основании Рисунка 10 можно сделать вывод, что 1 кластер характеризуется самыми низкими средними значениями показателей xi, в то время как 4 кластер – самыми высокими средними значениями соответствующих показателей. Таким образом, чем выше номер кластера, тем выше средние значения показателей xi.

Рисунок 10. Средние значения показателей в кластерах

В следующей таблице представлены регионы, входящие в каждый кластер:

Таблица 28. Распределение регионов по кластерам

1 кластер (32 региона)

2 кластер (19 регионов)

3 кластер (4 региона)

4 кластер (1 регион)

Чукотский авт. округ

Смоленская область

Оренбургская область

Республика Дагестан

Республика Тыва

Владимирская область

Иркутская область

 

Республика Калмыкия

Тамбовская область

Республика Коми

 

Республика Алтай

Калининградская область

Новосибирская область

 

Республика Адыгея

Алтайский край

 

 

Костромская область

Астраханская область

 

 

Магаданская область

Вологодская область

 

 

Респ. Северная Осетия

Ярославская область

 

 

Кабардино-Балкарская респ.

Тульская область

 

 

Псковская область

Омская область

 

 

Еврейская авт. область

Калужская область

 

 

Республика Хакасия

Волгоградская область

 

 

Орловская область

Томская область

 

 

Республика Марий Эл

Саратовская область

 

 

Республика Карелия

Архангельская область

 

 

Курганская область

Амурская область

 

 

Ивановская область

Тверская область

 

 

Камчатский край

Белгородская область

 

 

Республика Бурятия

Липецкая область

 

 

Кировская область

 

 

 

Мурманская область

 

 

 

Рязанская область

 

 

 

Республика Мордовия

 

 

 

Ненецкий авт. Округ

 

 

 

Новгородская область

 

 

 

Брянская область

 

 

 

Забайкальский край

 

 

 

Удмуртская республика

 

 

 

Чувашская республика

 

 

 

Курская область

 

 

 

Ульяновская область

 

 

 

Пензенская область

 

 

 

Регионы, входящие в состав 1 кластера, характеризуются самыми низкими средними значениями всех показателей xi, и далее чем выше номер кластера – тем выше средние значения соответствующие значения показателей. Интересно, что аналогичная картина вырисовывается и при распределении данных регионов по среднему уровню инвестиций в основные средства: чем выше номер кластера, тем выше средний уровень инвестиций в основные средства (результирующий показатель Y):

Таблица 29. Среднее значение объема инвестиций в основные средства (переменная Y)

1 кластер (32 региона)

2 кластер (19 регионов)

3 кластер (4 региона)

4 кластер (1 регион)

26432

67628

102335

115106

Таким образом, деление регионов на кластеры, однородные по средним значениям независимых переменных, соответствует группировке этих регионов по среднему значению результирующей переменной. Следовательно, объем инвестиций в основные средства действительно тесно зависит от переменных xi.

Важной целью кластерного анализа является минимизация расстояния между объектами, находящимися в пределах одного кластера, и максимизация расстояния между кластерами. В этой связи рассмотрим следующую таблицу:

Таблица 30. Межгрупповая дисперсия

Кластер

1

2

3

4

 

1

229485075

80722999

467540086

2

229485075

 0

149003554

252258277

3

80722999

149003554

 0

390909592

4

467540086

252258277

390909592

 0

Из Таблицы 31 видно, что расстояние между кластерами очень велико, причем расстояние между 1 и 2 кластером намного меньше, чем расстояние, скажем, между 1 и 3 и тем более 1 и 4 кластерами. Учитывая предыдущие размышления о характере объектов, попавших в каждый кластер (об средних значениях показателей xi), этот результат представляется весьма логичным.

Поскольку анализ проводился на основании 6 независимых переменных, наглядно представить его результаты при помощи графиков – достаточно сложная задача. Скорее всего, на многомерном графике сложилась бы следующая картина: объекты, находящиеся в одном кластере, образовали бы «облако» точек, элементы которого находятся на достаточно близком расстоянии друг от друга. Вместе с тем, отдельные «облака» находились бы на большом друг от друга расстоянии. По крайней мере, такая «картинка» представляется автору работы крайне желательной.

Итак, в результате кластерного анализа были выделены 4 кластера и охарактеризованы особенности такой классификации. Далее перейдем к дискриминантному.