Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Практикум по прикладой статистике

.pdf
Скачиваний:
120
Добавлен:
02.05.2015
Размер:
4.48 Mб
Скачать

Рис. 4.18. График средних значений переменных кластеров

8. В окне результатов кластерного анализа выбрать опцию Дисперсионный анализ (Analysis of variance). В первом столбце появившейся матрицы представлены значения межгрупповой дисперсии переменных (Between SS), во втором столбце – внутригрупповая дисперсия (Within SS). Чем выше межгрупповая дисперсия и чем меньше внутригрупповая дисперсия, тем лучше переменная различает кластеры. На основе представленных значений межгрупповой и внутригрупповой дисперсий рассчитывается F-критерий Фишера и определяется уровень значимости (signif. p) различий между группами по каждой классификационной переменной. В нашем случае внутригрупповая дисперсия переменной Var 2 превышает значение ее межгрупповой дисперсии, статистическая значимость различий средних значений переменной по кластерам не подтвердилась (p<0,5) (рис. 4.19).

90

Рис. 4.19. Дисперсионный анализ

9. Далее в окне результатов кластерного анализа выбрать опцию Описательная статистика для каждого кластера (Descriptive statistics for each cluster). В появивишемся окне представлены средние значения (Mean), стандартное отклонение (Standard Deviation) и дисперсия (Variance) переменных по каждому кластеру

(рис. 4.20).

Рис. 4.20. Описательные статистики для кластеров 1 и 2

10. Для определения состава кластеров в окне результатов кластерного анализа необходимо выбрать Состав кластеров и расстояния (Members of each cluster & distances) (рис. 4.21 и 4.22).

Состав кластеров, определенных с помощью метода k- средних, соответствует составу кластеров, выделенных с помощью агломеративного алгоритма.

91

Рис. 4.21. Состав кластера 1 и расстояния от центра кластера до объектов

Рис. 4.22. Состав кластера 2 и расстояния от центра кластера до объектов

Выводы:

Первый кластер образуют четыре региона, в которых наблюдается низкая продолжительность жизни, высокий уровень миграционного оттока населения, высокая доля населения моложе трудоспособного возраста, отмечен естественный прирост населения. Эти регионы являются «демографическими донорами», так как трудоспособное население выезжает из этих регионов в экономически развитые регионы. В состав второго кластера входит 8 регионов, демографическое положение которых характеризуется высокой ожидаемой продолжительностью жизни при рождении, миграционным притоком населения, естественной убылью населения и низкой долей населения младше трудоспособного возраста в составе всего населения. Это регионы «демографические реципиенты», численность населения которых пополняется за счет мигрантов из регионов «демографических доноров».

92

Задания для самостоятельной работы

Задача 4.1. На региональном страховом рынке функционирует 20 страховых компаний и групп. Проведите классификацию страховых компаний (групп) по показателям их деятельности с помощью иерархического агломеративного кластерного анализа:

х1 – объем страховых резервов, млн. руб.; х2 – объем собственных средств, млн. руб.; х3 – чистая прибыль / убыток, млн. руб.

Определите количество и состав классов компаний (групп), их статистические характеристики, сформулируйте выводы. Показатели деятельности страховых компаний (групп) представлены в таблице 4.8.

Таблица 4.8 Показатели деятельности страховых компаний (групп) в регионе

Страховая компания (группа)

х1

х2

х3

Альянс

3085,0

1490,2

-85,8

ЭРГО Русь

1619,7

646,7

-90,7

ВТБ Страхование

1693,2

709,6

-46,5

ОРАНТА Страхование

1874,1

1440,6

64,7

Русский Стандарт Страхование

2057,8

597,2

130,5

СГ Помощь

2164,9

562,2

5,2

Первая СК

2204,1

1186,3

2,0

Сургутнефтегаз

2225,7

1328,2

4,3

Национальная СГ

2341,9

1011,1

-120,4

Чешская СК

2589,4

899,7

33,9

Группа МАКС

2707,3

1550,8

0,5

НАСКО

2873,0

928,7

1,2

Группа РОСЭНЕРГО

3405,0

510,7

54,7

Прогресс-Гарант

3405,0

1177,3

-162,5

Спасские Ворота

3599,6

1365,2

1,2

Русский Мир

3882,1

1519,0

4,1

МСК-Стандарт

3928,0

1874,3

44,8

ЭНЕРГОГАРАНТ

4054,3

1780,6

161,1

Ренессанс

4059,3

1895,6

3,5

Согласие

5050,4

1660,7

8,3

 

93

 

 

Задача 4.2. В таблице 4.9 представлены показатели деятельности предприятий Республики Бурятия, специализирующихся на сдаче в наем собственного нежилого имущества. Проведите классификацию предприятий по представленным показателям с помощью одного из методов кластерного анализа.

х1 –стоимость основных средств, тыс. руб.; х2 – выручка от продаж, тыс. руб.; х3 – прибыль/убыток от продаж, тыс. руб.

Определите количество и состав классов предприятий, их статистические характеристики, сформулируйте выводы.

Таблица 4.9

Показатели деятельности предприятий

Наименование предприятия

х1

х2

х3

1

ОАО "Заря"

734

5141

-2236

2

ОАО "Байкал-Офис"

6826

12744

1660

3

ОАО "Бурятбыттехника"

4993

4022

809

4

ОАО "Бурятмебель"

30374

32559

5420

5

ОАО "Буряттара"

6249

17692

1224

6

ОАО "Бурятматтехресурсы"

1892

4222

69

7

ОАО "Офис-центр"

4172

9521

1083

8

ОАО "Гостиный двор"

5803

25798

11725

9

ОАО "Туяна"

1249

14202

5964

10

ОАО "Молпромсервис"

12700

19274

4269

11

ОАО "Торговый дом"

16011

33513

-3124

Задача 4.3. В таблице 4.10 представлены показатели социально-экономического развития сельских районов Республики Бурятия. Проведите классификацию районов по представленным показателям с помощью одного из методов кластерного анализа.

х1 – средняя заработная плата, руб.; х2 – средняя обеспеченность жильем, кв. м.;

х3 – валовая добавленная стоимость (ВДС) на душу населения, руб.;

х4 – уровень занятости населения, %.

94

Определите количество и состав классов сельских районов, их статистические характеристики, сформулируйте выводы.

Таблица 4.10 Показатели социально-экономического развития сельских районов

Республики Бурятия

Район

х1

х2

х3

х4

1

Баргузинский

8941

15,8

18411,8

29,3

2

Баунтовский

10649

20,7

63944,8

55,4

3

Бичурский

6688

16,9

41830,5

25,4

4

Джидинский

6021

16,6

39122,3

27,8

5

Еравнинский

7318

13,9

35226,7

32,2

6

Заиграевский

9969

20,9

25299,4

28,7

7

Закаменский

7012

17,5

41356,5

33,3

8

Иволгинский

8093

16,5

18964,5

17,1

9

Кабанский

9184

20,1

65764,0

39,5

10

Кижингинский

7402

16,8

27316,5

29,9

11

Курумканский

7679

16,5

31122,1

32,3

12

Кяхтинский

8047

16,4

21705,6

29,8

13

Муйский

14471

20,6

126974,3

50,9

14

Мухоршибирский

10098

17,8

37730,3

42,8

15

Окинский

11264

14,8

269018,3

87,5

16

Прибайкальский

8721

17

31424,0

34,1

17

Северо-Байкальский

13997

22,3

40484,6

46,9

18

Селенгинский

10400

18,1

81057,0

34,8

19

Тарбагатайский

7559

17,3

38058,6

25,9

20

Тункинский

7628

19,8

42246,2

30,2

21

Хоринский

7431

18,3

29858,6

32,8

95

Тема 5. Дискриминантный анализ

Теоретические основы

Дискриминантный анализ – совокупность статистических методов многомерной классификации объектов при наличии «обучающих» выборок. Под «обучающими» выборками следует понимать совокупность объектов, относительно которых заранее известна их классовая принадлежность. Определение «обучающих» выборок обычно связано с результатами ранее проведенного исследования, опросом экспертов, событиями, исход которых уже известен. То есть дискриминантный анализ используется для исследования ранее выявленных различий между классами объектов по определенному набору переменных, которые называются дискриминантными.

Методы дискриминантного анализа используются в различных областях науки: социологии, психологии, медицине, экономике. Примерами использования метода в социологии являются, например, предсказание выбора выпускников средней школы: продолжить обучение в вузе, колледже или отказаться от дальнейшего обучения; в менеджменте – принятие решения о приеме соискателя на определенную должность путем оценки его профессиональной пригодности; в медицине – принятие решения о лечении пациента на основе отнесения его к числу больных, которым требуется лечение, или к числу больных, которые уже находятся на стадии выздоровления и им не требуется лечение, в экономике – предсказание «поведения» потенциальных заемщиков. Методы дискриминантного анализа нашли широкое применение в маркетинговых исследованиях. Так с его помощью проводят анализ потребительских предпочтений, оценку конкурентоспособности нового товара и пр.

Целью дискриминантного анализа является классификация объектов, не входивших в «обучающие» выборки, на основе построения формального правила отнесения объектов к уже имеющимся классам по выбранным переменным.

Идея дискриминантного анализа заключается в том, чтобы определить различия между средними значениями дискриминантных переменных для классов, затем на основе этих

96

переменных предсказать принадлежность новых объектов к тому или иному классу.

Вычислительная процедура метода требует выполнения следующих условий:

наличие не менее двух классов объектов;

каждый класс должен содержать не менее двух объектов из «обучающей» выборки;

репрезентативность «обучающей» выборки;

дискриминантные переменные должны быть линейно независимыми, соответственно, нежелательно использовать переменные, между которыми наблюдается сильная статистическая связь;

число переменных, участвующих в анализе, не превышает объем «обучающей» выборки за вычетом двух объектов;

переменные распределены в соответствии с многомерным нормальным законом;

ковариационные матрицы переменных для каждого класса объектов приблизительно равны [3, с. 81-82].

Применение дискриминантного анализа чаще всего связано с решением следующих исследовательских задач:

установление различий между классами объектов путем построения дискриминантных функций и анализа значений коэффициентов функций;

определение принадлежности новых объектов к одному из имеющихся классов путем измерения расстояния от объекта до центра каждого класса и/или вычисления вероятностей принадлежности объекта к классам.

Канонический дискриминатный анализ

Решение задачи различения классов заключается в определении параметров канонической дискриминантной функции,

которая представляет собой функцию от дискриминантных переменных f(x). Дискриминантная функция может иметь как линейный вид, так и нелинейный. Выбор ее вида определяется геометрическим расположением разделяемых классов в пространстве дискриминантных переменных [6, с. 511]. На

97

практике для упрощения расчетов и интерпретации результатов целесообразно использовать функцию линейного вида:

f k x u k uk x

u k x

2

... u k x

p

,

0 1 1

2

p

 

где fk(x) значение дискриминантной функции для класса k, uik

коэффициенты функции для класса k, хр – значение переменной p. Параметры канонической дискриминантной функции

вычисляются с помощью метода канонических корреляций, количество функций соответствует количеству корней канонической корреляции. Полученные функции задают новое пространство, размерность которого меньше исходного. С геометрической точки зрения дискриминантные функции определяют гиперповерхности в p-мерном пространстве. В частном случае при p=2 она является прямой, а при p=3 – плоскостью.

Коэффициенты первой канонической дискриминантной функции ui1 определяются так, чтобы центры различных классов

максимально отличались друг от друга. Коэффициенты второй группы выбираются таким же образом, но при этом налагается дополнительное условие некоррелированности значений функции со значениями предыдущей (предыдущих для третьей и т.д. функций). Аналогично определяются следующие функции [3, с. 88].

Вычислительная процедура канонического дискриминантного анализа состоит из следующих шагов:

1.

Определение

матрицы

рассеяния переменных вокруг

 

T X

 

T X

 

,

 

 

 

средней

X

X

где Х – совместная матрица

 

 

 

 

 

 

 

исходных данных по всем классам, Х - вектор средних значений

переменных по всем классам.

 

 

 

2.

Определение

матрицы

внутриклассовых вариаций

m

 

 

 

 

 

 

 

 

 

 

 

 

 

W X k

 

k T X k

 

 

k , где Хk матрица исходных данных

X

X

k 1

класса k, X k - вектор средних значений переменных класса k, m - число классов.

3.Определение матрицы B=T-W.

4.Решение системы уравнений относительно λ и vi:

98

b1i vi

w1i vi

 

 

 

 

w v

 

 

b v

 

2i

i

 

2i i

 

 

...

 

 

.

bpivi

wpivi

 

 

 

 

 

 

vi2

1

 

 

 

 

 

 

 

 

Каждое решение, которое имеет свое собственное значение λ и собственный вектор vi, соответствует одной дискриминантной функции.

5.

Определение нестандартизированных

нормированных

коэффициентов

дискриминантной функции

по формуле

 

 

 

p

 

ui vi

n m ,

uo ui X i , n – общее число объектов по всем

i 1

классам, m – число классов, р – число дискриминантных переменных.

6. Интерпретация различий между классами на основе

рассмотрения значений параметров функций.

 

 

Полученные

на

предпоследнем

шаге

параметры

дискриминантных функций называются нестандартизированными. Их можно использовать для расчета значений функций, но они непригодны для интерпретации различий классов. Для этого используются стандартизированные коэффициенты. Стандартизированные коэффициенты позволяют определить вклад переменных в значение дискриминантной функции, то есть чем выше абсолютное значение параметра, тем больше вклад соответствующей переменной в дискриминацию объектов.

Переход

к

стандартизированным

 

коэффициентам

осуществляется

путем

преобразования нестандартизированных

 

 

 

 

 

 

 

 

коэффициентов

по

формуле:

ci ui

wii

 

. В случае

n m

 

 

 

 

 

 

 

 

нормированных исходных данных значения стандартизированных и нестандартизированных коэффициентов совпадают.

Для исследования взаимосвязи между дискриминатными функциями и дискриминантными переменными используются

99