Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Прикладная математика (практика)Мышкина7-27-1.doc
Скачиваний:
4
Добавлен:
22.08.2019
Размер:
1.28 Mб
Скачать

Кластерный анализ

Кластерный анализ представляет собой класс методов, используемых для классификации объектов или событий в относительно однородные группы, которые называются кластерами. Этапы выполнения кластерного анализа.

1. Формулировка проблемы.

2. Выбор меры расстояния.

3. Выбор метода кластеризации.

4. Принятие решения о количестве кластеров.

5. Интерпретация и профилирование кластеров.

6. Оценка достоверности кластеризации.

Данный кластерный анализ проводится на основе факторного, который был рассмотрен ранее. В таблице 9 рассмотрены основные показатели. Сначала проводится иерархический кластерный анализ, основанный на построении иерархической или древовидной структуры. Далее же для выявления принадлежности объектов к кластерам применяется кластерный метод к-средних.

Таблица 9- Сводка обработки наблюдений(a,b)

Наблюдения

Валидный

Пропущенные значения

Итого

N

Процент

N

Процент

N

Процент

20

100,0

0

,0

20

100,0

a Квадраты Евклидовых Расстояний использованное

b Средние связи (между группами)

В таблице 10 приведена последовательность объединения объектов в кластеры. Количество кластеров определяется следующим образом: сначала надо найти скачок коэффициентов близости объектов примерно в два раза, а затем из общего количества объектов вычесть тот номер этап, на котором произошел скачок. В нашем случае скачок с 0,752 до 5,336 произошел на этапе 17, следовательно из 20 объектов вычитаем 17 и получаем 3, то есть три кластера.

В ходе кластеризации первым делом вычисляется матрица различий между групповыми объектами- это матрица евклидовых расстояний. Евклидово расстояние вычисляется по формуле:

Таблица 10- Шаги агломерации

Этап

Кластер объединен с

Коэффициенты

Этап первого появления кластера

Следующий этап

Кластер 1

Кластер 2

Кластер 1

Кластер 2

1

6

17

,004

0

0

4

2

5

11

,017

0

0

5

3

2

13

,021

0

0

8

4

6

15

,026

1

0

9

5

5

20

,055

2

0

14

6

1

3

,070

0

0

13

7

10

16

,096

0

0

12

8

2

9

,144

3

0

14

9

6

12

,147

4

0

11

10

14

19

,167

0

0

17

11

6

7

,224

9

0

16

12

10

18

,254

7

0

15

13

1

8

,260

6

0

16

14

2

5

,343

8

5

18

15

4

10

,457

0

12

17

16

1

6

,506

13

11

18

17

4

14

,752

15

10

19

18

1

2

5,336

16

14

19

19

1

4

5,746

18

17

0

Также оптимальное количество кластеров можно определить из таблицы «Принадлежность к кластерам» (табл. 11), где приводится распределение объектов по кластерам в зависимости от их количества.

Таблица 11- Принадлежность к кластерам

Наблюдение

10 клас

теров

9 кластеров

8 кластеров

7 кластеров

6 кластеров

5 кластеров

4 кластеров

3 кластеров

2 кластеров

1

1

1

1

1

1

1

1

1

1

2

2

2

2

2

2

2

2

2

1

3

1

1

1

1

1

1

1

1

1

4

3

3

3

3

3

3

3

3

2

5

4

4

4

4

2

2

2

2

1

6

5

5

5

5

4

4

1

1

1

7

6

5

5

5

4

4

1

1

1

8

7

6

6

1

1

1

1

1

1

9

2

2

2

2

2

2

2

2

1

10

8

7

7

6

5

3

3

3

2

11

4

4

4

4

2

2

2

2

1

12

5

5

5

5

4

4

1

1

1

13

2

2

2

2

2

2

2

2

1

14

9

8

8

7

6

5

4

3

2

15

5

5

5

5

4

4

1

1

1

16

8

7

7

6

5

3

3

3

2

17

5

5

5

5

4

4

1

1

1

18

10

9

7

6

5

3

3

3

2

19

9

8

8

7

6

5

4

3

2

20

4

4

4

4

2

2

2

2

1

Рисунок 1 – Вертикальная сосульчатая диаграмма

Также обединение объектов в кластеры можно проследить по соульчатой диаграмме (рис. 1) и по дендрограмме (рис. 2).

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *

Dendrogram using Average Linkage (Between Groups)

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+---------+

6 

17 

15 

12 

7  

1   

3   

8  

5   

11   

20   

2   

13  

9  

14  

19   

10  

16   

18 

4 

Мы выделили три кластера и распределение объектов между кластерами можно наблюдать в талицах 12 и 13.

Таблица 12- Принадлежность к кластерам

Наблюдение

3 кластеров

1

1

2

2

3

1

4

3

5

2

6

1

7

1

8

1

9

2

10

3

11

2

12

1

13

2

14

3

15

1

16

3

17

1

18

3

19

3

20

2

Таблица 13- Принадлежность к кластерам

Номер

наблюдения

Кластер

Расстояние

1

3

,263

2

2

,349

3

3

,526

4

1

,410

5

2

,262

6

3

,171

7

3

,421

8

3

,549

9

2

,187

10

1

,352

11

2

,202

12

3

,530

13

2

,409

14

1

,306

15

3

,214

16

1

,060

17

3

,126

18

1

,677

19

1

,715

20

2

,391

В таблице 14 приведено соотнесение выделенных факторов и кластеров, позволяя интерпретировать выделенные кластеры (табл.16), также анализ выводит количество объектов в каждом кластере (табл. 15).

Таблица 14- Конечные центры кластеров

Кластер

1

2

3

REGR factor score 1 for analysis 1

-,18462

-1,20281

1,04057

REGR factor score 2 for analysis 1

1,41322

-,74040

-,50462

Таблица 15- Число наблюдений в каждом кластере

Кластер

1

6,000

2

6,000

3

8,000

Валидные

20,000

Пропущенные значения

,000

Таблица 16- Интерпретация результатов

№ кластера

Объекты, входящие в кластер

Название кластера

1

4, 10, 14, 16, 18, 19

«Экономные»

2

2, 5, 9, 11, 13, 20

«Домоседы»

3

1, 3, 6, 7, 8, 12, 15, 17

«Шопоголики»