- •Оглавление
- •Постановка задачи
- •Глава 1. «Компонентный анализ»
- •§1. «Проверка гипотезы: сколько факторов следует выделять?»
- •§2. «Интерпретация факторов (главных компонент)»
- •§3. «Построение диаграммы рассеивания»
- •§4. «Построение уравнения регрессии на главных компонентах»
- •Глава 2. «Кластерный анализ»
- •§1. «Построение и анализ дендрограмм»
- •§2. «Использование метода k-средних для классификации объектов»
- •§3. «Создание таблицы «состав кластеров»
- •§4. «Описание кластеров с помощью графических средств»
- •Глава3. «Дискриминантный анализ»
- •§1. «Уточнение результатов классификации»
- •§2. «Построение дискриминантной функции с помощью включения всех переменных»
- •2.1. Исследование качества классификации
- •2.2. Построение дискриминантной функции
- •2.3. Графический анализ результатов классификации
- •§3. «Построение дискриминантной функции с помощью пошагового алгоритма»
- •Заключение
- •Список литературы
- •Приложения
§3. «Создание таблицы «состав кластеров»
Таблица 8 «Средние значения расстояний от центра кластера»
Отчет |
|||
Расстояние от наблюдения до центра его кластера |
|||
Кластерный номер наблюдения |
Среднее |
N |
Стд.Отклонение |
1 |
1,9550040 |
12 |
,57934216 |
2 |
1,4831050 |
32 |
,78609013 |
Итого |
1,6118047 |
44 |
,75930726 |
Для первого кластера наблюдения в среднем более удалены от центра соответствующего кластера, чем для второго. Коэффициент вариации для первого кластера составляет 29,63%, для второго кластера – 53%. Кластер 1 более однороден по сравнению со вторым. Возможно, целесообразнее провести другую кластеризацию, увеличив число кластеров и тем самым разбив кластер 2 на более однородные группы. Расстояние между центрами двух кластеров определим по формуле =2,949.
§4. «Описание кластеров с помощью графических средств»
Как видно из Рисунков 6 и 7, кластер 1 имеет облако шарообразной формы, а кластер 2 – эллипсоидной формы. В первом случае большинство наблюдений значительно удалены от центра кластера, во втором случае основная группа объектов сконцентрирована в непосредственной близости от центра кластерного облака, однако существует несколько аномальных наблюдений, находящихся на значительном расстоянии от центра второго кластера. Кластерные центры находятся на существенном расстоянии друг от друга. Можно попробовать провести другую кластеризацию, разбив второй кластер на более однородные группы, или исключить из выборки аномальные наблюдения.
Рисунок 6 «Классификация регионов России в осях первой, второй и третьей главных компонент после кластеризации»
Рисунок 7 «Классификация регионов России в осях первой и второй главных компонент после кластеризации»
Глава3. «Дискриминантный анализ»
§1. «Уточнение результатов классификации»
На основании анализа Таблицы 5 из Приложений к настоящему Отчету можно сделать вывод о том, что только одно наблюдение было ранее некорректно классифицировано: Иркутская область была ошибочно отнесена к первому кластеру (наиболее развитым регионам России), тогда на самом деле данный объект должен входить во второй кластер (регионы России с более низким уровнем экономического развития) с вероятностью 0,525. 97,73 % исходных сгруппированных наблюдений классифицировано правильно (верно определена кластерная принадлежность). Прогноз кластерной принадлежности является достоверным (вероятность прогнозирования больше 0,9) в большинстве случаев, за исключением Саратовской, Иркутской и Кемеровской областей, а также приморского края.