- •Москва 2011
- •Цель работы.
- •Исходные данные.
- •Описательная статистика.
- •Корреляционная матрица
- •Кластерный анализ.
- •Иерархический;
- •Итерационный.
- •5.1. Иерархический кластерный анализ данных (Joining)
- •Алгоритм к-средних.
- •Характеристики каждого кластера.
- •Факторный анализ.
- •Анализ таблицы собственных чисел.
- •Определение необходимого количества факторов.
- •Канонический анализ
- •Проверка значимости канонических корней.
- •Факторная структура и избыточность
- •Канонические веса
- •Графическое изображение канонических значений
- •Многомерное шкалирование.
- •Заключение
Алгоритм к-средних.
Программа начинает с K случайно выбранных кластеров, а затем изменяет принадлежность объектов к ним, чтобы:
-
минимизировать изменчивость внутри кластеров;
-
максимизировать изменчивость между кластерами.
В кластеризации методом K средних программа перемещает объекты (т.е. наблюдения) из одних групп (кластеров) в другие.
k-means (k-средних)
Алгоритм метода разбивает множество элементов векторного пространства на заранее известное число кластеров k. Действие алгоритма таково, что он стремится минимизировать дисперсию на точках каждого кластера:
где k - число кластеров, Si - полученные кластеры, и μi - центры масс векторов
.
Необходимо отметить, что пакет Statistica не справился с подсчетом алгоритма при 17 параметрах. Для уменьшения количества фигурирующих параметров был проведен анализ корреляционной матрицы и повторный описательный анализ. Были отобраны наиболее часто коррелирующие с остальными параметры, а также исключены параметры с минимальными разбросами данных. В итоге количество параметров удалось сократить до семи.
Исходя из выбранного нами количества кластеров, выставляем параметры, и получаем следующие данные:
Это разбиение на кластеры подходит по критерию: дисперсия между кластерами (Between – SS) должна быть больше дисперсии внутри кластеров (Witnin – SS).
Cluster Means
Обратим внимание на данные предыдущей таблицы:
-
Критерий количество городов имеет наибольшее значение по кластеру 3, наименьшее – по 4му.
-
Критерий площадь территории имеет наибольшее значение по кластеру 1, а наименьшее – по 4му.
-
Критерий численность населения имеет наибольшее значение по кластеру 3, наименьшее – по кластеру 4.
-
Критерий среднедушевые денежные доходы имеет наибольшее значение по кластеру 1, наименьшее – по 4му.
-
Критерий валовой региональный продукт имеет наибольшее значение по кластеру 3, наименьшее – по 4му.
-
Критерий продукция с/х имеет наибольшее значение по кластеру 3, наименьшее – по кластеру 4.
-
Критерий инвестиции в основной капитал имеет наиб значение по кластеру 3, минимум – по кластеру 4.
Характеристики каждого кластера.
Кластер 1
В первый кластер вошли субъекты с большой площадью территории, но при этом малой численностью населения. Это области с суровыми погодными условиями, отсюда и небольшое количество городов, малый вклад в сельское хозяйство.
Кластер 2
Во второй кластер вошли «середнячки» нашей базы данных, имеющие средние показатели по всем параметрам. Так же стоит отметить, что большая часть субъектов имеет плодородные земли и мягкий климат, в связи с чем наблюдается хороший вклад в сельское хозяйство и большое количество проживающих. Также субъекты второго кластера выделяются небольшой площадью территорий и уровнем дохода.
Кластер 3
Кластер 3 содержит в себе наиболее развивающиеся субъекты РФ, о чем говорят и высокий уровень инвестиций, и вклад в ВВП. Стоит заметить и то, что субъекты небольшие по площади, но с высокой численностью населения, т.е. обладающие максимальной плотностью. Из-за высокого уровня регионального валового продукта эти субъекты очевидно наиболее интересны инвесторам.
Кластер 4
Элементами четвертого кластера стали субъекты, показатели которых по всем параметрам ниже среднего. Более того элементы именно этого кластера проявляют самые низкие значения по параметрам среднедушевого дохода, валового регионального продукта, уровнем инвестиций. То есть эти субъекты можно назвать неблагополучными.
Расстояния между кластерами.