- •Оглавление
- •Постановка задачи
- •Глава 1. «Компонентный анализ»
- •§1. «Проверка гипотезы: сколько факторов следует выделять?»
- •§2. «Интерпретация факторов (главных компонент)»
- •§3. «Построение диаграммы рассеивания»
- •§4. «Построение уравнения регрессии на главных компонентах»
- •Глава 2. «Кластерный анализ»
- •§1. «Построение и анализ дендрограмм»
- •§2. «Использование метода k-средних для классификации объектов»
- •§3. «Создание таблицы «состав кластеров»
- •§4. «Описание кластеров с помощью графических средств»
- •Глава3. «Дискриминантный анализ»
- •§1. «Уточнение результатов классификации»
- •§2. «Построение дискриминантной функции с помощью включения всех переменных»
- •2.1. Исследование качества классификации
- •2.2. Построение дискриминантной функции
- •2.3. Графический анализ результатов классификации
- •§3. «Построение дискриминантной функции с помощью пошагового алгоритма»
- •Заключение
- •Список литературы
- •Приложения
2.1. Исследование качества классификации
Таблица 9 «Тест равенства групповых средних значений»
Критерий равенства групповых средних |
|||||
|
Лямбда Уилкса |
F |
ст.св1 |
ст.св2 |
Знч. |
x1 |
,330 |
85,119 |
1 |
42 |
,000 |
x2 |
,289 |
103,163 |
1 |
42 |
,000 |
x3 |
,998 |
,070 |
1 |
42 |
,793 |
x4 |
,998 |
,076 |
1 |
42 |
,784 |
x5 |
,619 |
25,895 |
1 |
42 |
,000 |
Таблица 9 демонстрирует, что для трех переменных – числа предприятий и организаций (x1), числа зарегистрированных преступлений в сфере экономики (x2) и внутренних затрат на научные исследования и разработки (x5) – значение F-статистики превосходит Лямбду Уилкса, следовательно, по трем переменным наблюдается значительное различие в средних значениях между кластерами (p<0.001). Для других двух переменных – просроченной задолженности по заработной плате (x3) и индексов цен производителей промышленных товаров (x4), значение F-статистики существенно меньше лямбды Уилкса, соответственно, тенденция к значимости различий средних значений между кластерами не просматривается.
Таблица 10 представлена корреляционная матрица между всеми исходными переменными, в которой приводятся коэффициенты, осредненные для обеих групп. Между показателями x1 и x2 наблюдается прямая средняя связь, а между x1 и x5 – прямая умеренная. Чем больше предприятий и организаций в регионе, тем больше совершается экономических преступлений. Чем больше предприятий и организаций в регионе, тем больше денежных средств расходуется в регионе на научные исследования и разработки.
Таблица 10 «Объединенная групповая матрица»
Объединенные внутригрупповые матрицы |
||||||
|
x1 |
x2 |
x3 |
x4 |
x5 |
|
Корреляция |
x1 |
1,000 |
,558 |
,102 |
-,031 |
,409 |
x2 |
,558 |
1,000 |
-,130 |
,180 |
,042 |
|
x3 |
,102 |
-,130 |
1,000 |
-,030 |
,102 |
|
x4 |
-,031 |
,180 |
-,030 |
1,000 |
,112 |
|
x5 |
,409 |
,042 |
,102 |
,112 |
1,000 |
При помощи Лямбды Уилкса (Таблица 11) производится тест на то, значимо ли в обеих группах отличаются друг от друга средние значения дискриминантной функции; в нашем случае значение статистики χ2 превосходит Лямбду Уилкса, следовательно, между группами наблюдается очень значимое различие в средних значениях дискриминантной функции (p<0.001).
Таблица 11 «Лямбда Уилкса»
Лямбда Уилкса |
||||
Проверка функции(й) |
Лямбда Уилкса |
Хи-квадрат |
ст.св. |
Знч. |
1 |
,239 |
56,511 |
5 |
,000 |
Корреляционный коэффициент между рассчитанными значениями дискриминантной функции и реальной принадлежностью к группе, равный 0,872, является высоким (Таблица 12).
Таблица 12 «Собственные значения»
Собственные значения |
||||
Функция |
Собственное значение |
% объясненной дисперсии |
Кумулятивный % |
Каноническая корреляция |
1 |
3,181a |
100,0 |
100,0 |
,872 |
a. В анализе использовались первые 1 канонические дискриминантные функции. |
В Таблице 13 приводятся классификационные результаты. Коэффициент результативности равен 97,7%, что свидетельствует о высокой достигнутой точности прогнозирования дискриминантной функции. 97,7% % первоначально сгруппированных наблюдений были классифицированы корректно.
Таблица 13 «Классификационная матрица» Результаты классификацииa |
|||||
|
Кластерный номер наблюдения |
Предсказанная принадлежность к группе |
Итого |
||
1 |
2 |
||||
Исходные |
Частота |
1 |
11 |
1 |
12 |
2 |
0 |
32 |
32 |
||
% |
1 |
91,7 |
8,3 |
100,0 |
|
2 |
,0 |
100,0 |
100,0 |
||
a. 97,7% исходных сгруппированных наблюдений классифицировано правильно. |