Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Волжский Университет им. В.Н.Татищева

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

эконометрика.DOC

Скачиваний:

153

Добавлен:

20.02.2016

Размер:

8.35 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 89 / 129 10 11 12 > Следующая >>>

3.3. Задача 3. Кластерный анализ

3.3.1. Постановка задачи кластерного анализа

Кластерный анализ - это совокупность методов классификации многомерных наблюдений или объектов, основанных на определении понятия расстояния между объектами с последующим выделением из них групп наблюдений (кластеров, таксонов).

Выбор конкретного метода кластерного анализа зависит от цели классификации.

Обычной формой представления исходных данных в задачах кластерного анализа служит матрица:

каждая строка которой , представляет результат измерений k, рассматриваемых признаков на одном из обследованных объектов.

Наиболее трудным считается определение однородности объектов, которые задаются введением расстояния между объектами х_i и х_j (p(x_i, x_j)).

Объекты будут однородными в случае p(x_i, x_j) p_пор,

где p_пор- заданное пороговое значение.

Выбор расстояния (р) является основным моментом исследования, от которого зависят окончательные варианты разбиения. Наиболее распространенными считаются принципы “ближайшего соседа” или “дальнего соседа”. В первом случае за расстояние между кластерами принимают расстояние между ближайшими элементами этих кластеров, а во втором - между наиболее удаленными друг от друга.

В задачах кластерного анализа часто используют Евклидово и Хемингово расстояния.

Евклидово расстояние определяется по формуле:

;

сравнивается близость двух объектов по большому числу признаков.

Хемингово расстояние:

;

используется как мера различия объектов, задаваемых атрибутивными признаками.

3.3.2. Решение задач кластерного анализа в интегрированных системах

Пример решения. Провести классификацию шести объектов, каждый из которых характеризуется двумя признаками (табл.9). В качестве расстояния между объектами принять , расстояние между кластерами исчислить по принципам: 1) “ближайшего соседа” и 2) “дальнего соседа”.

Таблица 9

Исходные данные

№ п/п	1	2	3	4	5	6
х₁	2	4	5	12	14	15
х₂	8	10	7	6	6	4

где х₁ - объем выпускаемой продукции;

х₂- среднегодовая стоимость основных промышленно-производственных фондов. Зависимость между признаками приведена на рис. 12.

Так как в задаче не обуславливаются единицы измерения признаков, подразумевают, что они совпадают. Следовательно, нет необходимости в нормировании исходных данных, поэтому сразу рассчитываем матрицу расстояний.

Принцип “ближайшего соседа”.

Решение задачи:

В Excel 7.0 создаем таблицу с исходными данными и таблицы (матрицы) с расчетами (табл.10).

Х₂

Рис. 12. Зависимость между объемом выпускаемой продукции и среднегодовой стоимостью основных промышленно-производственных фондов

Воспользуемся агломеративным иерархическим алгоритмом классификации. В качестве расстояния между объектами примем обычное евклидовое расстояние. Тогда согласно формуле:

где l - признаки; k - количество признаков, расстояние между объектами 1 и 2 равно:

р₁₁=0; .

Расчеты последующих расстояний аналогичны.

1. Формулу: =КОРЕНЬ((B5-B5)^2+(B6-B6)^2) помещаем в ячейку В14 и рассчитываем расстояние р₁₁, затем в ячейке В15 - расстояние р₁₂ по формуле: =КОРЕНЬ((B5-C5)^2+(B6-C6)^2) и т.д., пока не будет произведен расчет расстояний между всеми шестью объектами (ячейки В14:В29):

p₁₁=0; p₁₂=2.83; p₁₃=3.16; p₁₄=10.20; p₁₅=12.17;

p₁₆=13.6; p₂₃=3.16; p₂₄=8.94; p₂₅=10.77; p₂₆=12.53;

p₃₄=7.07; p₃₅=9.06; p₃₆=10.44; p₄₅=2; p₄₆=3.61; p₅₆=2.24.

Полученные данные помещаем в таблицу (матрицу) -ячейки D15:J21. Из матрицы расстояний следует, что объекты 4 и 5 наиболее близки P₄₅=2.00 и поэтому объединяются в один кластер. Для расчета наименьшего расстояния используется формула: =МИН(F16:J16;G17:J17;H18:J18;I19:J19;J20) - ячейка E22.

После объединения имеем пять кластеров.

Номер кластера	1	2	3	4	5
Состав кластера	(1)	(2)	(3)	(4,5)	(6)

Матрицу расстояний помещаем в ячейки D25 - I30, воспользуемся этой матрицей расстояний, чтобы рассчитать расстояние объединяемых объектов 4,5 и 6, которые имеют наименьшее расстояние P_MIN=P_4,5,6=2.24 (формула =МИН(F26:I26;G27:I27;H28:I28;I29 в ячейке E32). После объединения имеем четыре кластера: S₍₁₎, S₍₂₎, S₍₃₎, S_(4,5,6).

Таблица 10

Исходные данные

Вновь находим матрицу расстояний (табл.11), помещаем рассчитанные значения в ячейки D35 - H39 и объединяем объекты 1 и 2, имеющие наименьшее расстояние P_MIN=P_1,2=2.83 (формула =МИН(F36:H36;G37:H37;H38) в ячейке E41). Расстояние между остальными кластерами остается без изменения. В результате имеем три кластера: S₍₁_,2₎, S₍₃₎, S_(4,5,6).
Объединим теперь объекты 1,2 и 3, расстояние между которыми равно: P_MIN=P_1,2,3=3.16 (формула =МИН(F45:G45;G46) в ячейке E49.
Таким образом, при проведении кластерного анализа по принципу “ближайшего соседа” получили два кластера: S₍_1,2,3₎, S_(4,5,6), расстояние между которыми равно:

P_{(1,2,3);
(4,5,6)}= 7,07.

Таблица 11

Расчетные значения

Результаты иерархической классификации объектов представлены на рис.13 в виде

дерева объединения кластеров - дендрограммы, где по оси ординат приводятся расстояния между объединяемыми на данном этапе кластерами.

Рис.13. Дендрограмма

<<< < Предыдущая 1 2 3 4 5 6 7 89 / 129 10 11 12 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
20.02.20163.5 Mб17шпоры исправленные.doc
#
26.04.2019281.09 Кб17шпоры по административному праву(экзамен).doc
#
26.04.2019221.7 Кб2шпоры по бух учету.doc
#
26.04.2019520.7 Кб20шпоры по сп.doc
#
26.04.2019383.49 Кб9шпоры по тп.doc
#
20.02.20168.35 Mб153эконометрика.DOC