Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
122
Добавлен:
28.04.2017
Размер:
5.83 Mб
Скачать

Число разбиений в зависимости от их заданной доли и вероятности

β

P

0,80

0,90

0,95

0,99

0,999

0,9999

0,20

8

11

14

21

31

42

0,10

16

22

29

44

66

88

0,05

32

45

59

90

135

180

0,01

161

230

299

459

689

918

0,001

1626

2326

3026

4652

6977

9303

0,0001

17475

25000

32526

55000

75000

100000

В качестве меры разнородности рассматривается мера принадлежности. При решении задач кластерного анализа принимаются следующие условия: а) выбранные характеристики допускают желательное разбиение на кластеры; б) единицы измерения (масштаб) выбраны правильно (это обусловлено тем, что разбиение на кластеры зависит от выбора масштаба). Наиболее прямой способ решения задачи заключается в полном переборе всех возможных разбиений на кластеры и отыскании такого, которое ведет к оптимальному (минимальному) значению целевой функции. Целевая функция как критерий оптимальности представляет собой некоторый функционал, выражающий уровни возможности различных разбиений и группировок. Например, в качестве целевой функции может быть использована внутригрупповая сумма квадратов отклонений . Приведем пример кластеризации с помощью полного перебора (все возможные варианты сочетаний). Если число объектов п = 8, кластеров т = 4, то число возмож­ных разбиений составляет 1701, т. е. существует 1701 способ разбить 8 объектов на 4 кластера (табл. 3.2). Число разбиений можно определить также по формуле .

Разбиение в конечном итоге должно удовлетворять критерию оптимальности, т. е. целевому функционалу (целевой функции).

Таблица 3.2

Число разбиений в зависимости от сочетаний числа кластеров и объектов

n

m

1

2

3

4

5

6

7

8

1

1

2

1

1

3

1

3

1

4

1

7

6

1

5

1

15

25

10

1

6

1

31

90

65

15

1

7

1

63

301

350

140

21

1

8

1

127

966

1701

1050

266

28

1

Метод дендритов. Исследуемые объекты, разделенные на кластеры, можно изобразить в виде дендрограммы, которая представляет собой графическое изображение матрицы расстояний или сходства. Такой анализ объектов исследования носит название метода дендритов. Имея п объектов, можно построить большое количество дендрограмм, которые соответствуют избранной процедуре кластеризации. Для конкретной матрицы расстояний или сходства существует только одна дендрограмма.

Представим дендрограмму с шестью объектами (n = 6) (рис. 3.1). Объекты 1 и 3 наиболее близки, т. е. наименее удалены друг от друга, поэтому объединяются в один кластер на уровне сходства, равном 0,9 (образуют 1-й шаг). Объекты 4 и 5 объединяются при уровне сходства 0,8 (2-й шаг). На 3-м и 4-м шагах процесса образуются кластеры 1, 3, 6 и 5, 4, 2, соответствующие уровню сходства соответственно 0,7 и 0,6. Окончательно все объекты группируются в один кластер при уровне сходства 0,5.

Вид дендрограммы зависит от выбора меры сходства или расстояния и метода кластеризации. Например, разработаны алгоритмы кластерного анализа, позволяющие проводить классификацию (группировку) многомерных наблюдений (строк и столбцов матрицы х) с помощью следующих мер сходства: выборочного коэффициента корреляции, модуля выборочного коэффициента корреляции, косинуса угла между векторами, модуля косинуса угла между векторами, эвклидова расстояния и т. д.

Выделяются группы взаимосвязанных признаков (см. рис. 3.2). Достоверно положительно связаны температура и содержание оксидов железа и гидрокарбонат-иона. На среднем уровне положительно связаны влага, подвижные формы органического вещества и анаэробные бактерии. Еще одну группу образуют концентрация щелочноземельных элементов и углекислоты почвенного воздуха. Сравнение дендрограмм показывает, что изучаемые признаки хвойной и мелколиственной фации однотипны. Это свидетельствует о внутренней однородности протекающих в них процессов и подтверждает их генетическое единство. На залежи, как производной от природных ландшафтов, наблюдаются менее тесные связи между показателями внутри фации.

Рис. 3.1. Общий вид дендрограммы:

I– сходство,II– расстояние

Рис. 3.2. Дендрограммы корреляционных связей почвенно-биогеохимических показателей темнохвойной (I), мелколиственной (II) фаций и залежи-пашни (III): 1– влажность,2 – температура; органическое вещество:3– водорастворимое,4– кислоторастворимое; ионы водной вытяжки:5– Са2+, Мg2+,6– НСО3; подвижные формы железа:7–FeО,8–Fe2О3;9– анаэробные бактерии;10– оксид углерода почвенного воздуха

Соседние файлы в папке Матметоды в географии