Московский государственный университет экономики, статистики и информатики (МГУЭСИ)
Индивидуальная работа
по многомерным статистическим методам
«Компонентный анализ»
Выполнил студент группы ДСС-201 Дитковский Кирилл
Проверила Архипова М.Ю.
Вариант 3
Москва, 2007 г.
1. Исходные данные
По данным n=20 сельскохозяйственных районов региона требуется провести компонентный анализ урожайности на основе следующих показателей:
y — урожайность зерновых культур (ц/га);
x(1) — число колесных тракторов (приведенной мощности) на 100 га;
x(2) — число зерноуборочных комбайнов на 100 га;
x(3) — число орудий поверхностной обработки почвы на 100 га;
x(4) — количество удобрений, расходуемых на гектар (т/га);
x(5) — количество химических средств защиты растений, расходуемых на гектар (ц/га).
Данные приведены в следующей таблице:
i |
yi |
xi(1) |
xi(2) |
xi(3) |
xi(4) |
xi(5) |
1 |
9,70 |
1,59 |
0,26 |
2,05 |
0,32 |
0,14 |
2 |
8,40 |
0,34 |
0,28 |
0,46 |
0,59 |
0,66 |
3 |
9,00 |
2,53 |
0,31 |
2,46 |
0,30 |
0,31 |
4 |
9,90 |
4,63 |
0,40 |
6,44 |
0,43 |
0,59 |
5 |
9,60 |
2,16 |
0,26 |
2,16 |
0,39 |
0,16 |
6 |
8,60 |
2,16 |
0,30 |
2,69 |
0,37 |
0,17 |
7 |
12,50 |
0,68 |
0,29 |
0,73 |
0,42 |
0,23 |
8 |
7,60 |
0,35 |
0,26 |
0,42 |
0,21 |
0,08 |
9 |
6,90 |
0,52 |
0,24 |
0,49 |
0,20 |
0,08 |
10 |
13,50 |
3,42 |
0,31 |
3,02 |
1,37 |
0,73 |
11 |
9,70 |
1,78 |
0,30 |
3,19 |
0,73 |
0,17 |
12 |
10,70 |
2,40 |
0,32 |
3,30 |
0,25 |
0,14 |
13 |
12,10 |
9,36 |
0,40 |
11,51 |
0,39 |
0,38 |
14 |
9,70 |
1,72 |
0,28 |
2,26 |
0,82 |
0,17 |
15 |
7,00 |
0,59 |
0,29 |
0,60 |
0,13 |
0,35 |
16 |
7,20 |
0,28 |
0,26 |
0,30 |
0,09 |
0,15 |
17 |
8,20 |
1,64 |
0,29 |
1,44 |
0,20 |
0,08 |
18 |
8,40 |
0,09 |
0,22 |
0,05 |
0,43 |
0,20 |
19 |
13,10 |
0,08 |
0,25 |
0,03 |
0,73 |
0,20 |
20 |
8,70 |
1,36 |
0,26 |
0,17 |
0,99 |
0,42 |
Для данного варианта необходимо вычеркнуть третью строчку.
Таблица с исходными данными примет вид:
i |
yi |
xi(1) |
xi(2) |
xi(3) |
xi(4) |
xi(5) |
1 |
9,70 |
1,59 |
0,26 |
2,05 |
0,32 |
0,14 |
2 |
8,40 |
0,34 |
0,28 |
0,46 |
0,59 |
0,66 |
3 |
9,90 |
4,63 |
0,40 |
6,44 |
0,43 |
0,59 |
4 |
9,60 |
2,16 |
0,26 |
2,16 |
0,39 |
0,16 |
5 |
8,60 |
2,16 |
0,30 |
2,69 |
0,37 |
0,17 |
6 |
12,50 |
0,68 |
0,29 |
0,73 |
0,42 |
0,23 |
7 |
7,60 |
0,35 |
0,26 |
0,42 |
0,21 |
0,08 |
8 |
6,90 |
0,52 |
0,24 |
0,49 |
0,20 |
0,08 |
9 |
13,50 |
3,42 |
0,31 |
3,02 |
1,37 |
0,73 |
10 |
9,70 |
1,78 |
0,30 |
3,19 |
0,73 |
0,17 |
11 |
10,70 |
2,40 |
0,32 |
3,30 |
0,25 |
0,14 |
12 |
12,10 |
9,36 |
0,40 |
11,51 |
0,39 |
0,38 |
13 |
9,70 |
1,72 |
0,28 |
2,26 |
0,82 |
0,17 |
14 |
7,00 |
0,59 |
0,29 |
0,60 |
0,13 |
0,35 |
15 |
7,20 |
0,28 |
0,26 |
0,30 |
0,09 |
0,15 |
16 |
8,20 |
1,64 |
0,29 |
1,44 |
0,20 |
0,08 |
17 |
8,40 |
0,09 |
0,22 |
0,05 |
0,43 |
0,20 |
18 |
13,10 |
0,08 |
0,25 |
0,03 |
0,73 |
0,20 |
19 |
8,70 |
1,36 |
0,26 |
0,17 |
0,99 |
0,42 |
2. Проведение компонентного анализа с построением уравнения регрессии на главных компонентах
В ходе регрессионного анализа нами была построена регрессионная модель. Однако, более рациональным в условиях мультиколлинеарности может оказаться построение уравнения регрессии на главных компонентах.
При помощи ППП «Statistica» найдем собственные значения главных компонент. Результаты представим в таблице 1.
Таблица 1
Собственные значения главных компонент
Главные компоненты Z(i) |
Собств. значения |
Вклад i-ой главной компоненты (%) в суммарную дисперсию |
Суммарный вклад первых главных компонент (%) |
Z1 |
3,04 |
60,89 |
60,89 |
Z2 |
1,41 |
28,22 |
89,11 |
Z3 |
0,42 |
8,37 |
97,49 |
Z4 |
0,11 |
2,25 |
99,73 |
Z5 |
0,01 |
0,27 |
100,00 |
Как видно из таблицы, общий вклад двух первых компонент в суммарную дисперсию составляет 89,11%. Поэтому ограничимся экономической интерпретацией двух первых главных компонент.
Рис. 1. График собственных значений
Построим матрицу факторных нагрузок:
|
Z1 |
Z2 |
Z3 |
Z4 |
Z5 |
X1 |
0,95 |
-0,20 |
0,18 |
0,15 |
0,07 |
X2 |
0,94 |
-0,17 |
-0,17 |
-0,26 |
0,02 |
X3 |
0,94 |
-0,29 |
0,14 |
0,06 |
-0,09 |
X4 |
0,25 |
0,88 |
0,39 |
-0,08 |
0,00 |
X5 |
0,57 |
0,70 |
-0,43 |
0,11 |
-0,01 |
В данной матрице факторных нагрузок красным цветом отмечены элементы, которые будут учитываться при интерпретации главных компонент.
Из матрицы факторных нагрузок следует, что первая главная компонента наиболее тесно связана с показателями: Х1— число колесных тракторов (приведенной мощности) на 100 га; Х2 — число зерноуборочных комбайнов на 100 га; Х3 — число орудий поверхностной обработки почвы на 100 га. Значит, главную компоненту Z1 мы можем интерпретировать как уровень механизации работ в растениеводстве.
Вторая главная компонента Z2 тесно связана с показателями: Х4— количество удобрений, расходуемых на гектар (т/га); Х5 — количество химических средств защиты растений, расходуемых на гектар (ц/га). Значит, главную компоненту Z2 мы можем интерпретировать как уровень химизации растениеводства.
Классификация признаков в осях главных компонент
Рис. 2. Классификация признаков в осях главных компонент
Рис. 3. Классификация сельскохозяйственных предприятий в осях 1 и 2 главных компонент
Теперь приступим к построению уравнения регрессии на главных компонентах. Это уравнение строится по данным вектора значений результативного показателя Y и матрицы значений нормированных главных компонент. Рассчитаем значения нормированных главных компонент при помощи ППП «Statistica». Результаты представим в таблице 2.
Таблица 2