Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Анализ инвестиций в основные средства(Сушко).doc
Скачиваний:
109
Добавлен:
14.11.2019
Размер:
2.32 Mб
Скачать

Дискриминантный анализ

Последней стадией данного исследования является проведение дискриминантного анализа. Плюсом этого анализа является то, что он позволяет проверить результаты проведенной ранее кластеризации наблюдений.

При помощи дискриминантного анализа в пакете SPSS проверим результаты кластерного анализа. В результате получим, что практически все наблюдения были классифицированы корректно: результаты распределения по группам совпали с результатами кластерного анализа, вероятности попадания в нужный кластер близки к 1, вероятности попадания в другие кластеры близка к 0. Смоленская область – единственный регион, классифицированный ошибочно:

Таблица 31. Поверка кластерного анализа

Кластерный анализ

Регион

Дискриминантный анализ

Апостериорная в-ть (1)

Апостериорная в-ть (2)

Апостериорная в-ть (3)

Апостериорная в-ть (4)

1

Пензенская обл.

1

0,9874

0,0126

0,0000

0

2

Смоленская обл.

1

0,5047

0,4953

0,0000

0

2

Владимирская обл.

3

0,3326

0,6674

0,0000

0

Согласно кластерному анализу Смоленская область должна была войти во 2 кластер, однако апостериорная вероятность попадания этого региона в 1 кластер является самой высокой, следовательно, Смоленская область должна быть отнесена к 1 кластеру.

Далее перейдем к построению дискриминантной функции. По значению этой функции мы можем определить, к какому кластеру лучше всего отнести новое, ранее не классифицированное наблюдение. Поскольку классификация проходит по числу групп m>2 (m=4), было получено несколько вариантов дискриминантной функции, а именно – 3. Средние значения дискриминантных функций составили:

Таблица 32. Средние значения дискриминантных функций

Функции в центроидах групп

Кластерный номер наблюдения

Функция

1

2

3

dimension0

1

2,990

-2,176

,499

2

4,634

11,183

1,398

3

3,170

1,288

-1,136

4

-174,440

,439

,030

Важным показателем качества дискриминантной функции является коэффициент канонической корреляции – мера связи между четырьмя (в данном случае) множествами переменных. Чем выше его величина, тем выше разделительная способность дискриминантной функции (максимальное значение равно единице). Сравним коэффициенты канонической корреляции трех полученных дискриминантных функций:

Таблица 33. Качество дискриминантных функций

Функция

Собственное значение

% объясненной дисперсии

Кумулятивный %

Каноническая корреляция

dimension0

1

596,002a

97,7

97,7

,999

2

13,144a

2,2

99,9

,964

3

,775a

,1

100,0

,661

Как видно из Таблицы 34, первая дискриминантная функция характеризуется самым высоким значением коэффициента канонической корреляции – 0,999. Кроме того, степень разделения кластеров зависит от собственного значения дискриминантной функции: чем больше собственное значение, тем выше степень разделения. Первая функция имеет наибольшее собственное значение (далее – вторая и т. д.), а значит, обладает наибольшей разделительной способностью. Также из Таблицы 34 видно, что первая функция объясняет наибольшую долю дисперсии признаков. Таким образом, приведенные выше рассуждения доказывают, что первая дискриминантная функция – лучший инструмент для проверки принадлежности нового наблюдения к той или иной обучающей выборке.

Чтобы проверить, значимо ли отличаются средние значения дискриминантной функции в четырех выделенных кластерах, используют Лябду-Уилкса:

Таблица 34. Лямбда-Уилкса

Проверка функции(й)

Лямбда Уилкса

Хи-квадрат

ст.св.

Знч.

dimension0

1

,000

480,747

18

,000

2

,040

161,151

10

,000

3

,563

28,687

4

,000

Согласно Таблице 35, средние значения первой дискриминантной функции в четырех различных кластерах очень значимо различаются (лямбда очень мала).

Далее проверим значимость первой дискриминантной функции. Тест на значимость проводится при помощи лямбда-статистики Уилкса. Чем меньше эта статистика, тем более значимой является дискриминантная функция. Смысл теста заключается в следующем. Критерий лямбда-статистики Уилкса оценивает остаточную дискриминантную способность, т. е. способность функции различать кластеры, при условии, что информация, полученная с помощью ранее рассчитанных выборок, отсутствует. Логично, что, если остаточная дискриминантная способность мала, нет никакого смысла выводить следующую дискриминантную функцию. В Таблице 35 мы видим, что первая функция обладает самым низким значением лямбды. Следовательно, она (первая функция) является наиболее значимой.

Далее рассмотрим структурную матрицу:

Таблица 35. Структурная матрица

Функция

1

2

3

X4

-,176

,807

-,293

X1

-,058

,724

-,325

X6

-,344

,663

-,131

X2

-,072

,634

-,425

X3

-,052

,608

-,282

X5

-,067

,462

,176

Коэффициенты данной матрицы есть не что иное, как коэффициенты корреляции между переменными xi и соответствующими дискриминантными функциями. Так, все независимые переменные отрицательно коррелирут с первой функцией, причем степень корреляции довольно невысока.

Для классификации относительно четырех обучающих выборок было отобрано 10 дополнительных регионов:

 

х1

х2

х3

х4

х5

х6

Ростовская область

23393085

295261292

22612102

105099296

18405209

1897403,98

Свердловская область

134124283

523994141

42801295

132521300

16616266

3293641,16

Челябинская область

64120604

313355286

21779756

98722184

33664381

3859178,82

Республика Саха (Якутия)

35491081

261948424

19979575

48296053

5746136

2122326,19

Хабаровский край

18727940

245034844

9072870

3305346

8764319

1407914,07

Сахалинская область

131220511

293988011

8639251

4267695

1211917

33426742,79

Республика Татарстан

141441928

688407262

36729536

272332364

17933807

4870539,35

Пермский край

130198670

166047212

13201461

326753174

3611773

1269501,23

Нижегородская область

90673020

270722421

18063213

337101571

10580667

1570237,56

Кемеровская область

86200602

337969152

25807055

200330905

24207956

1177822,01

При помощи первой дискриминантной функции определим, к какому кластеру следует отнести каждый из регионов. Коэффициенты дискриминантных функций следующие:

Таблица 36. Нормированные коэффициенты дискриминантных функций

 

Функция

1

2

3

X1

5,02

2,332

1,433

X2

0,168

-1,603

-3,122

X3

-2,224

-1,533

-0,019

X4

-1,335

2,017

0,444

X5

1,59

0,608

1,428

X6

-3,087

-0,978

-0,096

Классификация новых объектов по кластерам выглядит следующий образом:

Регион

Оптимальный кластер

Апостериорная в-ть (1)

Апостериорная в-ть (3)

Апостериорная в-ть (2)

Апостериорная в-ть (4)

Ростовская область

2

0,0039

0,0000

0,9962

0

Свердловская область

2

0,0000

0,0000

1,0000

0

Челябинская область

2

0,0000

0,0000

1,0000

0

Республика Саха (Якутия)

1

1,0000

0,0000

0,0000

0

Хабаровский край

1

1,0000

0,0000

0,0000

0

Сахалинская область

4

0,0000

0,0000

0,0000

1

Республика Татарстан

3

0,0000

1,0000

0,0000

0

Пермский край

3

0,0000

1,0000

0,0000

0

Нижегородская область

3

0,0000

1,0000

0,0000

0

Кемеровская область

3

0,0000

1,0000

0,0000

0

Из таблицы видно, что оптимальному кластеру соответствует наибольшая апостериорная вероятность – вероятность попадания в кластер. Таким образом, к единственному «лидеру» по величине значений переменных, влияющих на инвестиции в основные средства, – Республике Дагестан – можно присоединить Сахалинскую область. К отстающим регионам – с наименьшим объемом инвестирования в основные средства – можно отнести Республику Саха (Якутию) и Хабаровский край. Ростовская, Свердловская и Челябинская области попали в кластер с относительно небольшими значениями независимых переменных и, соответственно, уровнем инвестирования в основные средства. В то же время, Нижегородская, Кемеровская области, Пермский край и Республика Татарстан попали в сравнительно «передовой» - третий – кластер.

Аналогичные выводы (аналогичные дискриминантные функции, их нормированные коэффициенты, значения Лямбды-Уилкса, собственные значения, а также аналогичное распределение новых регионов по кластерам) получаются при проведении пошагового алгоритма в SPSS. Поэтому не имеет смысла приводить соответствующие аналитические таблицы еще раз.

Таким образом, в результате дискриминантного анализа были проверены результаты кластерного анализа, а также проведена классификация новых 10 регионов по четырем заданным кластерам.

Выводы

Во второй части данного исследования были проведены компонентный анализ (методом главных компонент), кластерный и дискриминантный анализ. Результатом компонентного анализа является выделение двух главных компонент: z1 - объем собственных и заемных средств, поступивших в предприятия региона за период; z2 - интенсивность вложений предприятий региона в финансовые активы и количества иностранного капитала в регионе. Далее была построена регрессия результирующего показателя Y (объем инвестиций в основные средства) на главные компоненты. Коэффициенты уравнения регрессии получились значимыми, как и само уравнение. Однако по качеству модель регрессии на главные компоненты уступает нелинейной степенной модели (ошибка степенной модели намного ниже, чем ошибка модели главных компонент, в то время как коэффициенты корреляции и детерминации у нелинейной модели выше).

В результате кластерного анализа с помощью различных методов иерархической кластеризации было выведено оптимальное число кластеров, равное 4. Далее методом k-средних была проведена кластеризация 56 регионов относительно заданных 4 кластеров. В первый кластер вошли регионы с самыми низкими значениями показателей, влияющими на Y (32 объекта). В 4 кластер вошел один объект (Республика Дагестан), который характеризуется самыми высокими значениями показателей xi. Расстояния между кластерами оказались достаточно большими, в то время как расстояния между объектами внутри кластера – относительно маленькими. Это говорит об адекватности проведенной кластеризации.

Наконец, дискриминантный анализ подтвердил результаты кластеризации методом k-средних. Далее, на основании наиболее оптимальной функции дискриминации, по соответствующим кластерам были разнесены новые 10 регионов. Результаты метода включения всех переменных сошлись с результатами, полученными при методе пошагового алгоритма. Дискриминантная функция оказалась значимой, следовательно, результаты дискриминантного анализа также можно признать значимыми при заданной надежности.

52