Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Отчет_МСМ_Николаев Василий_У7-711.doc
Скачиваний:
2
Добавлен:
09.12.2018
Размер:
2.06 Mб
Скачать

Алгоритм к-средних.

Программа начинает с K случайно выбранных кластеров, а затем изменяет принадлежность объектов к ним, чтобы:

  1. минимизировать изменчивость внутри кластеров;

  2. максимизировать изменчивость между кластерами.

В кластеризации методом K средних программа перемещает объекты (т.е. наблюдения) из одних групп (кластеров) в другие.

k-means (k-средних)

Алгоритм метода разбивает множество элементов векторного пространства на заранее известное число кластеров k. Действие алгоритма таково, что он стремится минимизировать дисперсию на точках каждого кластера:

где k - число кластеров, Si - полученные кластеры, и μi - центры масс векторов

.

Необходимо отметить, что пакет Statistica не справился с подсчетом алгоритма при 17 параметрах. Для уменьшения количества фигурирующих параметров был проведен анализ корреляционной матрицы и повторный описательный анализ. Были отобраны наиболее часто коррелирующие с остальными параметры, а также исключены параметры с минимальными разбросами данных. В итоге количество параметров удалось сократить до семи.

Исходя из выбранного нами количества кластеров, выставляем параметры, и получаем следующие данные:

Это разбиение на кластеры подходит по критерию: дисперсия между кластерами (Between – SS) должна быть больше дисперсии внутри кластеров (Witnin – SS).

Cluster Means

Обратим внимание на данные предыдущей таблицы:

    1. Критерий количество городов имеет наибольшее значение по кластеру 3, наименьшее – по 4му.

    2. Критерий площадь территории имеет наибольшее значение по кластеру 1, а наименьшее – по 4му.

    3. Критерий численность населения имеет наибольшее значение по кластеру 3, наименьшее – по кластеру 4.

    4. Критерий среднедушевые денежные доходы имеет наибольшее значение по кластеру 1, наименьшее – по 4му.

    5. Критерий валовой региональный продукт имеет наибольшее значение по кластеру 3, наименьшее – по 4му.

    6. Критерий продукция с/х имеет наибольшее значение по кластеру 3, наименьшее – по кластеру 4.

    7. Критерий инвестиции в основной капитал имеет наиб значение по кластеру 3, минимум – по кластеру 4.

Характеристики каждого кластера.

Кластер 1

В первый кластер вошли субъекты с большой площадью территории, но при этом малой численностью населения. Это области с суровыми погодными условиями, отсюда и небольшое количество городов, малый вклад в сельское хозяйство.

Кластер 2

Во второй кластер вошли «середнячки» нашей базы данных, имеющие средние показатели по всем параметрам. Так же стоит отметить, что большая часть субъектов имеет плодородные земли и мягкий климат, в связи с чем наблюдается хороший вклад в сельское хозяйство и большое количество проживающих. Также субъекты второго кластера выделяются небольшой площадью территорий и уровнем дохода.

Кластер 3

Кластер 3 содержит в себе наиболее развивающиеся субъекты РФ, о чем говорят и высокий уровень инвестиций, и вклад в ВВП. Стоит заметить и то, что субъекты небольшие по площади, но с высокой численностью населения, т.е. обладающие максимальной плотностью. Из-за высокого уровня регионального валового продукта эти субъекты очевидно наиболее интересны инвесторам.

Кластер 4

Элементами четвертого кластера стали субъекты, показатели которых по всем параметрам ниже среднего. Более того элементы именно этого кластера проявляют самые низкие значения по параметрам среднедушевого дохода, валового регионального продукта, уровнем инвестиций. То есть эти субъекты можно назвать неблагополучными.

Расстояния между кластерами.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]