Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Отчет_МСМ_Николаев Василий_У7-711.doc
Скачиваний:
2
Добавлен:
09.12.2018
Размер:
2.06 Mб
Скачать

Корреляционная матрица

Корреляционная связь — это согласованное изменение двух признаков, отражающее тот факт, что изменчивость одного признака находится в соответствии с изменчивостью другого.

Корреляционная зависимость - это изменения, которые вносят значения одного признака в вероятность появления разных значений другого признака.

Степень, сила или теснота корреляционной связи определяется по величине коэффициента корреляции.

Максимальное возможное абсолютное значение коэффициента корреляции r=1,00; минимальное r=0,00.

Общая классификация корреляционных связей (по Ивантер Э.В., Коросову А.В., 1992):

сильная, или тесная при коэффициенте корреляции r>0,70;

средняя при 0,50<r<0,69;

умеренная при 0,30<r<0,49;

слабая при 0,20<r<0,29;

очень слабая при r<0,19.

Корреляционная матрица показывает, что присутствует как прямая так и обратная корреляционная связь, например связь между площадью территории и количеством поселков городского типа в субъекте прямая, а между площадью территории и количеством городов – обратная.

В наблюдаемых данных у каждого из параметров существует хотя бы умеренная связь более чем с 3-4 другими параметрами, что говорит о насыщенности данных.

Наиболее сильные связи заметны между параметрами:

  1. Численность населения и количество занятых в экономике (0.99)

  2. Численность населения и валовый региональный продукт (0.90)

  3. Валовый региональный продукт и основными фондами в экономике (0.97)

Очень слабые связи между:

  1. Площадь территории и количество городов (0.07)

  2. Население в трудоспособном возрасте и количество занятых в экономике (0.15)

Ниже приведены несколько графиков зависимостей между параметрами, как 2-х, так и 3-х мерные.

На этом графике показана зависимость между параметрами численности населения и количеством городов, заметна сильная корреляция, равная 0,71.

На этом графике связь между параметрами потребительских расходов и з/п, она менее заметная, чем на предыдущем графике, корреляция также ниже и равна 0.58.

Трехмерные графики более наглядно отображают область с наибольшим скоплением данных, но увидеть на них связь между переменными заметно сложнее.

Кластерный анализ.

Кластерный анализ— разбиение заданной выборки объектов на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались.

Кластер — группа элементов, характеризуемых общим свойством

Главная цель кластерного анализа — нахождение групп схожих объектов в выборке.

Существует два алгоритма реализации кластерного анализа:

  1. Иерархический;

  2. Итерационный.

5.1. Иерархический кластерный анализ данных (Joining)

Иерархические (древообразные) процедуры являются наиболее распространенными (в смысле реализации на ЭВМ). Они бывают двух типов: агломеративные и дивизимные. В агломеративных процедурах начальным является разбиение, состоящее из n одноэлементных классов, а конечным – из одного класса; в дивизимных – наоборот.

Принцип работы иерархических агломеративных (дивизимных) процедур состоит в последовательном объединении (разделении) групп элементов сначала самых близких (далеких), а затем все более отдаленных (близких) друг от друга. Большинство этих алгоритмов исходит из матрицы расстояний.

Statistic дает возможность изменять параметры кластеризации:

Amalgamation (linkage) rule – тип связи:

  • Single Linkage – метод одиночной связи (ближайшего соседа), т.е. присоединяем самый ближний к кластеру элемент

  • Complete Linkage – метод полной связи (дальнего соседа), т.е. находим элемент, который будет ближе всего к наиболее удаленному элементу кластера

  • Unweighted pair-group average – не взвешенный метод «средней связи» (не взвешенное попарное среднее)

  • Weighted pair-group average - взвешенный метод «средней связи»

  • Unweighted pair-group centroid

  • Weighted pair-group centroid (median) – взвешенный центроидный метод

  • Ward’s method – метод Варда (Уорда)

Distance measure – тип расстояния:

  • Squared Euclidean distances – Квадрат Евклидова расстояния

  • Euclidean distances - Евклидово расстояние (это геометрическое расстояние в многомерном пространстве, то есть аналог физического расстояния)

  • City block (Manhattan) distance – Манхэттенское расстояние

  • Chebyshev distance metric – расстояние Чебышева (Принимает значение наибольшего модуля разности между значениями соответствующих свойств (признаков) объектов (P=MAX|Ai-Bi|))

  • Power: (SUM(ABS(x-y)**p)**1/z) – степенное расстояние

  • Percent disagreement – процент несовпадений (используется для качественных признаков)

  • 1-Pearson r – коэффициент корреляции (1-r Пирсона)

Были рассмотрены различные расстояния и типы связей.

Для дальнейшего исследования был выбран вариант с Евклидовой метрикой и взвешенным попарным средним.

Итоговое количество кластеров составило 4 штуки.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]