Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Российский экономический университет им. Г.В. Плеханова

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Анализ инвестиций в основные средства(Сушко).doc

Скачиваний:

111

Добавлен:

14.11.2019

Размер:

2.32 Mб

Скачать

☆

<<< < Предыдущая 1 23 / 43 4 > Следующая >>>

Кластерный анализ

Следующим этапом данного исследования является кластерный анализ. Задачей кластерного анализа является разбиение выбранных регионов (n=56) на сравнительно небольшое число групп (кластеров) на основе их естественной близости относительно значений переменных x_i. При проведении кластерного анализа мы предполагаем, что геометрическая близость двух или нескольких точек в пространстве означает физическую близость соответствующих объектов, их однородность (в нашем случае - однородность регионов по показателям, влияющим на инвестиции в основные средства).

На первой стадии кластерного анализа необходимо определиться с оптимальным числом выделяемых кластеров. Для этого необходимо провести иерархическую кластеризацию – последовательное объединение объектов в кластеры до тех пор, пока не останется два больших кластера, объединяющиеся в один на максимальном расстоянии друг от друга. Результат иерархического анализа (вывод об оптимальном количестве кластеров) зависит от способа расчета расстояния между кластерами. Таким образом, протестируем различные методы и сделаем соответствующие выводы.

Метод «ближнего соседа»

Если расстояние между отдельными объектами мы рассчитываем единым способом – как простое евклидово расстояние – расстояние между кластерами вычисляется разными методами. Согласно методу «ближайшего соседа», расстояние между кластерами соответствует минимальному расстоянию между двумя объектами разных кластеров.

Анализ в пакете SPSS проходит следующим образом. Сначала рассчитывается матрица расстояний между всеми объектами, а затем, на основе матрицы расстояний, объекты последовательно объединяются в кластеры (для каждого шага матрица составляется заново). Шаги последовательного объединения представлены в таблице:

Таблица 25. Шаги агломерации. Метод «ближайшего соседа»


Этап	Кластер объединен с		Коэффициенты	Этап первого появления кластера		Следующий этап
Этап	Кластер 1	Кластер 2	Коэффициенты	Кластер 1	Кластер 2	Следующий этап
1	7	8	,003	0	0	8
2	17	18	,004	0	0	18
3	3	4	,004	0	0	27
4	14	15	,005	0	0	10
5	22	23	,005	0	0	13
6	9	10	,005	0	0	14
7	11	12	,005	0	0	19
8	6	7	,006	0	1	14
9	34	35	,007	0	0	20
10	13	14	,007	0	4	11
11	13	16	,009	10	0	19
12	27	28	,010	0	0	22
13	21	22	,010	0	5	31
14	6	9	,010	8	6	24
15	45	46	,010	0	0	42
16	24	25	,011	0	0	33
17	39	40	,012	0	0	28
18	17	19	,012	2	0	26
19	11	13	,012	7	11	24
20	34	36	,012	9	0	35
21	42	43	,012	0	0	39
22	27	29	,013	12	0	25
23	37	38	,014	0	0	28
24	6	11	,014	14	19	32
25	26	27	,014	0	22	30
26	17	20	,014	18	0	31
27	2	3	,015	0	3	29
28	37	39	,015	23	17	43
29	2	5	,016	27	0	32
30	26	30	,017	25	0	33
31	17	21	,018	26	13	38
32	2	6	,018	29	24	36
33	24	26	,019	16	30	37
34	31	32	,019	0	0	37
35	33	34	,020	0	20	43
36	1	2	,021	0	32	38
37	24	31	,021	33	34	40
38	1	17	,022	36	31	40
39	41	42	,024	0	21	45
40	1	24	,025	38	37	44
41	49	50	,027	0	0	49
42	44	45	,030	0	15	45
43	33	37	,033	35	28	44
44	1	33	,034	40	43	46
45	41	44	,042	39	42	46
46	1	41	,052	44	45	47
47	1	47	,074	46	0	48
48	1	48	,101	47	0	49
49	1	49	,103	48	41	53
50	52	53	,126	0	0	51
51	51	52	,163	0	50	52
52	51	54	,198	51	0	53
53	1	51	,208	49	52	54
54	1	55	,583	53	0	55
55	1	56	1,072	54	0	0

Как видно из Таблицы 26, на первом этапе объединились элементы 7 и 8, т. к. расстояние между ними было минимальным – 0,003. Далее расстояние между объединенными объектами увеличивается. По таблице также можно сделать вывод об оптимальном числе кластеров. Для этого нужно посмотреть, после какого шага происходит резкий скачок в величине расстояния, и вычесть номер этой агломерации из числа исследуемых объектов. В нашем случае: (56-53)=3 – оптимальное число кластеров.

Рисунок 5. Дендрограмма. Метод "ближайшего соседа"

Аналогичный вывод об оптимальном количестве кластеров можно сделать и глядя на дендрограмму (Рис. 5): следует выделить 3 кластера, причем в первый кластер войдут объекты под номерами 1-54 (всего 54 объекта), а во второй и третий кластеры – по одному объекту (под номерами 55 и 56 соответственно). Данный результат говорит о том, что первые 54 региона относительно однородны по показателям, влияющим на инвестиции в основные средства, в то время как объекты под номерами 55 (Республика Дагестан) и 56 (Новосибирская область) значительно выделяются на общем фоне. Стоит заметить, что данные субъекты имеют самые большие объемы инвестиций в основные средства среди всех отобранных регионов. Этот факт еще раз доказывает высокую зависимость результирующей переменной (объема инвестиций) от выбранных независимых переменных.

Аналогичные рассуждения проводятся для других методов расчета расстояния между кластерами.

Метод «дальнего соседа»

Таблица 26. Шаги агломерации. Метод "дальнего соседа"


Этап	Кластер объединен с		Коэффициенты	Этап первого появления кластера		Следующий этап
Этап	Кластер 1	Кластер 2	Коэффициенты	Кластер 1	Кластер 2	Следующий этап
1	7	8	,003	0	0	9
2	17	18	,004	0	0	26
3	3	4	,004	0	0	19
4	14	15	,005	0	0	12
5	22	23	,005	0	0	18
6	9	10	,005	0	0	24
7	11	12	,005	0	0	24
8	34	35	,007	0	0	22
9	6	7	,009	0	1	27
10	27	28	,010	0	0	25
11	45	46	,010	0	0	31
12	13	14	,011	0	4	21
13	24	25	,011	0	0	34
14	39	40	,012	0	0	30
15	42	43	,012	0	0	29
16	37	38	,014	0	0	30
17	19	20	,014	0	0	26
18	21	22	,014	0	5	34
19	2	3	,017	0	3	33
20	29	30	,017	0	0	35
21	13	16	,018	12	0	36
22	34	36	,018	8	0	32
23	31	32	,019	0	0	38
24	9	11	,021	6	7	36
25	26	27	,022	0	10	35
26	17	19	,026	2	17	39
27	5	6	,026	0	9	37
28	49	50	,027	0	0	46
29	41	42	,034	0	15	41
30	37	39	,035	16	14	44
31	44	45	,035	0	11	41
32	33	34	,037	0	22	38
33	1	2	,037	0	19	37
34	21	24	,042	18	13	39
35	26	29	,044	25	20	45
36	9	13	,046	24	21	42
37	1	5	,063	33	27	42
38	31	33	,077	23	32	44
39	17	21	,082	26	34	45
40	47	48	,101	0	0	46
41	41	44	,105	29	31	48
42	1	9	,117	37	36	49
43	52	53	,126	0	0	47
44	31	37	,134	38	30	48
45	17	26	,142	39	35	49
46	47	49	,187	40	28	51
47	51	52	,265	0	43	50
48	31	41	,269	44	41	51
49	1	17	,275	42	45	52
50	51	54	,439	47	0	53
51	31	47	,504	48	46	52
52	1	31	,794	49	51	55
53	51	55	,902	50	0	54
54	51	56	1,673	53	0	55
55	1	51	2,449	52	54	0

При методе «дальнего соседа» расстояние между кластерами рассчитывается как максимальное расстояние между двумя объектами в двух разных кластерах. Согласно Таблице 27, оптимальное число кластеров равно (56-53)=3.

Рисунок 6. Дендрограмма. Метод "дальнего соседа"

Согласно дендрограмме, оптимальным решением также будет выделение 3 кластеров: в первый кластер войдут регионы под номерами 1-50 (50 регионов), во второй – под номерами 51-55 (5 регионов), в третий – последний регион под номером 56.

Метод «центра тяжести»

При методе «центра тяжести» за расстояние между кластерами принимается евклидово расстояние между «центрами тяжести» кластеров – средними арифметическими их показателей x_i.

При анализе таблицы шагов объединения (далее не будем приводить саму таблицу из-за ее громоздкости) выяснилось, что оптимальное количество кластеров равно (56-52)=4.

Далее рассмотрим дендрограмму:

Рисунок 7. Дендрограмма. Метод "центра тяжести"

На Рисунке 7 видно, что оптимальное число кластеров следующее: 1 кластер – 1-47 объекты; 2 кластер – 48-54 объекты (всего 6); 3 кластер – 55 объект; 4 кластер – 56 объект.

Принцип «средней связи»

В данном случае расстояние между кластерами равно среднему значению расстояний между всеми возможными парами наблюдений, причем одно наблюдение берется из одного кластера, а второе – соответственно, из другого.

Анализ таблицы шагов агломерации показал, что оптимальное количество кластеров равно (56-52)=4. Сравним этот вывод с выводом, полученным при анализе дендрограммы. На Рисунке 8 видно, что в 1 кластер войдут объекты под номерами 1-50, во 2 кластер – объекты 51-54 (4 объекта), в 3 кластер – 55 регион, в 4 кластер – 56 регион.

Рисунок 8. Дендрограмма. Метод "средней связи"

Метод «средней связи элементов разных кластеров и внутри групп»

В данном методе расстояние между кластерами рассчитывается на основании всех возможных пар наблюдений, принадлежащих обоим кластерам, причем учитываются также пары наблюдений, образующиеся внутри кластеров. В этом случае получаются интересные результаты. Оптимальное число кластеров равно 4: в первый кластер войдут 34 региона, во второй – 18 регионов, в третий – 3 региона (под номерами 52-54), а в 4 – один регион под номером 56.

Рисунок 9. Дендрограмма №5

На основании иерархического кластерного анализа, проведенного различными методами, можно сделать вывод, что оптимальное число кластеров равно 4.

Метод k-средних

Несмотря достоинства иерархического метода (можно отследить поэтапное объединение объектов в кластеры), при большом количестве объектов проводить данный анализ весьма сложно. Поэтому в случае, когда число объектов n велико, применяют метод k-средних. Идея этого метода состоит в том, чтобы разбить анализируемое множество объектов n на заранее известное число кластеров k, причем данное разбиение должно минимизировать функционал качества – сумму внутриклассовых дисперсий:

При помощи пакета SPSS рассчитаем значения средних показателей в кластерах:

Таблица 27. Конечные центры кластеров

	Кластер
	1	2	3	4
X1	4195240	25034440	68079262	89474435
X2	29617943	103000000	233000000	400000000
X3	2070030	7251361	17833344	24428385
X4	5397553	31181165	86732878	271000000
X5	737058	5586734	23933823	49465146
X6	148188	983240	2935974	21539977

На основании Рисунка 10 можно сделать вывод, что 1 кластер характеризуется самыми низкими средними значениями показателей x_i_,в то время как 4 кластер – самыми высокими средними значениями соответствующих показателей. Таким образом, чем выше номер кластера, тем выше средние значения показателей x_i.

Рисунок 10. Средние значения показателей в кластерах

В следующей таблице представлены регионы, входящие в каждый кластер:

Таблица 28. Распределение регионов по кластерам

1 кластер (32 региона)	2 кластер (19 регионов)	3 кластер (4 региона)	4 кластер (1 регион)
Чукотский авт. округ	Смоленская область	Оренбургская область	Республика Дагестан
Республика Тыва	Владимирская область	Иркутская область
Республика Калмыкия	Тамбовская область	Республика Коми
Республика Алтай	Калининградская область	Новосибирская область
Республика Адыгея	Алтайский край
Костромская область	Астраханская область
Магаданская область	Вологодская область
Респ. Северная Осетия	Ярославская область
Кабардино-Балкарская респ.	Тульская область
Псковская область	Омская область
Еврейская авт. область	Калужская область
Республика Хакасия	Волгоградская область
Орловская область	Томская область
Республика Марий Эл	Саратовская область
Республика Карелия	Архангельская область
Курганская область	Амурская область
Ивановская область	Тверская область
Камчатский край	Белгородская область
Республика Бурятия	Липецкая область
Кировская область
Мурманская область
Рязанская область
Республика Мордовия
Ненецкий авт. Округ
Новгородская область
Брянская область
Забайкальский край
Удмуртская республика
Чувашская республика
Курская область
Ульяновская область
Пензенская область

Регионы, входящие в состав 1 кластера, характеризуются самыми низкими средними значениями всех показателей x_i_, и далее чем выше номер кластера – тем выше средние значения соответствующие значения показателей. Интересно, что аналогичная картина вырисовывается и при распределении данных регионов по среднему уровню инвестиций в основные средства: чем выше номер кластера, тем выше средний уровень инвестиций в основные средства (результирующий показатель Y):

Таблица 29. Среднее значение объема инвестиций в основные средства (переменная Y)

1 кластер (32 региона)	2 кластер (19 регионов)	3 кластер (4 региона)	4 кластер (1 регион)
26432	67628	102335	115106

Таким образом, деление регионов на кластеры, однородные по средним значениям независимых переменных, соответствует группировке этих регионов по среднему значению результирующей переменной. Следовательно, объем инвестиций в основные средства действительно тесно зависит от переменных x_i.

Важной целью кластерного анализа является минимизация расстояния между объектами, находящимися в пределах одного кластера, и максимизация расстояния между кластерами. В этой связи рассмотрим следующую таблицу:

Таблица 30. Межгрупповая дисперсия


Кластер		1	2	3	4
	1	0	229485075	80722999	467540086
	2	229485075	0	149003554	252258277
	3	80722999	149003554	0	390909592
	4	467540086	252258277	390909592	0

Из Таблицы 31 видно, что расстояние между кластерами очень велико, причем расстояние между 1 и 2 кластером намного меньше, чем расстояние, скажем, между 1 и 3 и тем более 1 и 4 кластерами. Учитывая предыдущие размышления о характере объектов, попавших в каждый кластер (об средних значениях показателей xi), этот результат представляется весьма логичным.

Поскольку анализ проводился на основании 6 независимых переменных, наглядно представить его результаты при помощи графиков – достаточно сложная задача. Скорее всего, на многомерном графике сложилась бы следующая картина: объекты, находящиеся в одном кластере, образовали бы «облако» точек, элементы которого находятся на достаточно близком расстоянии друг от друга. Вместе с тем, отдельные «облака» находились бы на большом друг от друга расстоянии. По крайней мере, такая «картинка» представляется автору работы крайне желательной.

Итак, в результате кластерного анализа были выделены 4 кластера и охарактеризованы особенности такой классификации. Далее перейдем к дискриминантному.

<<< < Предыдущая 1 23 / 43 4 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
14.08.2019658.94 Кб74Актуальность данной темы определяется.doc
#
24.11.20181.15 Mб73Алгоритмизация и программирование.doc
#
17.11.2019664.11 Кб281Алгоритмы манипуляций.rtf
#
03.08.201958.18 Mб72Алла+Аня+Грануш.docx
#
01.09.2019385.02 Кб66Альбигойские войны.doc
#
14.11.20192.32 Mб111Анализ инвестиций в основные средства(Сушко).doc
#
19.09.201972.02 Кб83Анализ лунных затмений.docx
#
16.03.201512.69 Кб114Анализ магнита.docx
#
21.11.201980.49 Кб42Анализ рынка парфюмерно (Восстановлен).docx
#
28.09.2019837.63 Кб31АНАЛИЗ СТРАТЕГИИ.doc
#
16.03.201593.29 Кб161Анализ фин сост.docx