ПР4_Заболотников_9373
.pdfМИНОБРНАУКИ РОССИИ САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ ЭЛЕКТРОТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ «ЛЭТИ» ИМ. В.И. УЛЬЯНОВА (ЛЕНИНА) Кафедра алгоритмической математики
ОТЧЕТ по практической работе №4
по дисциплине «Статистический анализ» Тема: Элементы корреляционного анализа. Проверка статистической
гипотезы о равенстве коэффициента корреляции нулю
Студент гр. 9373 |
|
Заболотников М.Е. |
|
Преподаватель |
|
|
Сучков А.И. |
Санкт-Петербург
2021
Цель работы.
Освоение основных понятий, связанных с корреляционной зависимостью между случайными величинами, статистическими гипотезами и проверкой их
«справедливости».
Основные теоретические положения.
Для выполнения данной лабораторной работы были использованы следующие понятия и формулы.
1.Статистическая зависимость – зависимость, при которой изменения одной случайной величины влечёт изменение распределения другой.
2.Корреляционная зависимость – статистическая зависимость, при которой изменение одной случайной величины влечёт изменение среднего значения другой.
3.Корреляционная таблица – таблица вида:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
. . . |
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
1 |
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
|
|
|
|
|
||
|
|
1 |
|
|
1 1 |
|
|
|
1 2 |
|
. . . |
|
|
|
|
|
1 |
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
2 |
|
|
2 1 |
|
|
|
2 2 |
|
|
|
|
|
|
|
|
2 |
|
||||||
|
|
. . . |
|
|
|
|
|
. . . |
|
|
|
|
. . . |
|
. . . |
|
|
|
|
. . . |
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
. . . |
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
1 |
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
. . . |
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
1 |
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В этой таблице и – элементы двух выборочных совокупностей ( и |
|||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
соответственно), |
|
и |
|
|
– их собственные абсолютные частоты, а |
|
|
– их |
|||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
общие абсолютные частоты. – это, разумеется, объём выборки ( |
|
= ). |
|
||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
4. |
Межгрупповое среднее – величина, которая считается следующим |
||||||||||||||||||||||||
образом: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
̅̅̅ = |
∑ ∑ |
|
|
|
|
|
|
|
|
|
|
(1) |
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
=1 =1
2
где |
и – варианты двумерной случайной величины, а |
|
|
|
– их совместные |
||
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
абсолютные частоты. |
|
|
|
|
|
|
|
|
5. Корреляционный момент – величина, которая вычисляется по формуле: |
||||||
|
|
|
= ̅̅̅ − ̅∙ ̅ |
|
|
|
(2) |
|
|
|
|
|
|
|
6. Выборочный коэффициент корреляции – величина, которая определяет наличие линейной зависимости между двумя совокупностями.
Вычисляется коэффициент корреляции следующим образом:
= |
|
|
(3) |
|
|
||||
|
|
|
||
в |
|
|
|
|
|
|
|
|
7.Доверительный интервал коэффициента корреляции – интервал ( 1,
2), границы которого считаются как:
|
|
|
|
|
|
|
1 |
= ( − |
∙ ) |
|
|
(4) |
|
|
|
|
|
|
|
|
1−2 |
|
|
|
|
|
|
|
|
|
|
|
2 |
= ( + |
∙ ) |
|
|
(5) |
|
|
|
|
|
|
|
|
1−2 |
|
|
|
|
где |
|
= |
|
1 |
– стандартная оценка |
среднего, |
1− |
|
= (1 − , ∞), а |
|||
|
√ |
|
|
|||||||||
|
−3 |
|||||||||||
|
2 |
|||||||||||
= |
1 |
( |
1+ в |
) – преобразование Фишера. |
|
|
|
|
||||
|
|
|
|
|
|
|||||||
|
2 |
|
1− в |
|
|
|
|
|
|
|||
|
|
8. Относительно выборочного |
коэффициента корреляции можно |
выдвинуть гипотезу о равенстве нулю генерального коэффициента корреляции.
Для проверки этой гипотезы выдвигают и рассчитывают критерий набл.,
который вычисляется следующим образом:
|
|
|
|
|
|
|
|
|
|
|
= |
в |
√ − 2 |
|
|
(6) |
|
|
|
|
|
|
|
|||
набл. |
|
√1 − 2 |
|
|||||
|
|
|
|
|||||
|
|
|
|
|
в |
|
||
Далее, по таблице, находится значение крит.: |
|
|||||||
крит. |
= ( , = − 2) |
(7) |
Если набл. < | крит.|, то гипотеза принимается. Если же данное неравенство не выполняется, гипотезу отвергают.
3
Постановка задачи.
Из заданной генеральной совокупности сформировать выборку по второму признаку. Провести статистическую обработку второй выборки в объеме практических работ №1 и №2, с целью определения точечных статистических оценок параметров распределения исследуемого признака (математического ожидания, дисперсии, среднеквадратичного отклонения, асимметрии и эксцесса). Для системы двух случайных величин (первый признак) и (второй признак) сформировать двумерную выборку и найти статистическую оценку коэффициента корреляции, построить доверительный интервал для коэффициента корреляции и осуществить проверку статистической гипотезы о равенстве коэффициента корреляции нулю. Полученные результаты содержательно проинтерпретировать.
Исходные данные – значения, полученные в первой и второй лабораторных работах. Программный код представлен в приложении А.
Выполнение работы.
Рассмотрим вторую выборочную совокупность. Данные представим в виде табл. 1:
4
Таблица 1 – Исходная выборка (выборка 2)
|
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
63 |
67 |
62 |
63 |
76 |
112 |
182 |
220 |
102 |
30 |
97 |
113 |
113 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
14 |
15 |
16 |
17 |
18 |
19 |
20 |
21 |
22 |
23 |
24 |
25 |
26 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
38 |
21 |
14 |
30 |
109 |
50 |
37 |
29 |
26 |
26 |
46 |
38 |
25 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
27 |
28 |
29 |
30 |
31 |
32 |
33 |
34 |
35 |
36 |
37 |
38 |
39 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
22 |
39 |
118 |
48 |
80 |
14 |
36 |
42 |
86 |
410 |
138 |
54 |
172 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
40 |
41 |
42 |
43 |
44 |
45 |
46 |
47 |
48 |
49 |
50 |
51 |
52 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
31 |
147 |
204 |
90 |
55 |
24 |
70 |
78 |
141 |
94 |
64 |
43 |
36 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
53 |
54 |
55 |
56 |
57 |
58 |
59 |
60 |
61 |
62 |
63 |
64 |
65 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
163 |
145 |
69 |
90 |
42 |
44 |
53 |
89 |
61 |
48 |
245 |
10 |
54 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
66 |
67 |
68 |
69 |
70 |
71 |
72 |
73 |
74 |
75 |
76 |
77 |
78 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
60 |
122 |
62 |
54 |
33 |
151 |
126 |
64 |
33 |
82 |
94 |
74 |
244 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
79 |
80 |
81 |
82 |
83 |
84 |
85 |
86 |
87 |
88 |
89 |
90 |
91 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
60 |
47 |
57 |
65 |
71 |
102 |
130 |
104 |
135 |
105 |
117 |
56 |
50 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
92 |
93 |
94 |
95 |
96 |
97 |
98 |
99 |
100 |
101 |
102 |
103 |
104 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
105 |
100 |
113 |
104 |
75 |
92 |
108 |
66 |
94 |
106 |
50 |
177 |
98 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
105 |
106 |
107 |
108 |
109 |
110 |
111 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
55 |
102 |
98 |
97 |
133 |
93 |
147 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Сперва, используя теоретические положения (понятия и формулы) из |
первых двух лабораторных работ, найдём все необходимые для работы параметры выборочной совокупности:
-математическое ожидание;
-дисперсию;
-среднеквадратичное отклонение (СКО);
-коэффициент асимметрии;
-коэффициент эксцесса;
-моду;
-медиану;
5
- коэффициент вариации.
Результаты представим в виде табл. 2:
Таблица 2 – Основные характеристики второй выборочной совокупности
параметр |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
значение |
87.4775 |
3501.7 |
59.1755 |
1.9034 |
|
|
|
|
|
параметр |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
значение |
7.2087 |
71.9048 |
79.0217 |
67.6466% |
|
|
|
|
|
Для удобства приведём также те же параметры для первой выборочной
совокупности (см. табл. 3):
Таблица 3 – Основные характеристики первой выборочной совокупности
параметр |
|
|
|
|
|
|
|
|
|
значение |
99.8986 |
1600.7 |
40.0033 |
1.4402 |
|
|
|
|
|
параметр |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
значение |
5.2083 |
93.1197 |
95.6911 |
40.0439% |
|
|
|
|
|
Как мы можем видеть из таблиц, судя по коэффициентам асимметрии и коэффициентам эксцесса, обе выборочные совокупности ведут себя похожим образом. Даже коэффициенты вариации относительно близко друг к другу расположены. Это говорит нам о том, что обе выборки далеки от нормального распределения и являются неоднородными.
6
Для двух данных выборочных совокупностей, а точнее для их интервальных вариационных рядов, имеем двумерный интервальный вариационный ряд. Данные представим в виде табл. 4:
Таблица 4 – Двумерный интервальный вариационный ряд
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
(-15; 35] |
(35; 85] |
(85; 135] |
(135; 185] |
(185; 235] |
(235; 285] |
(185; 335] |
(335; 385] |
(385; 435] |
|
|
|
|
|
|
|
|
|
|
(2.8125; 37.1875] |
4 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
(37.1875; 71.5625] |
11 |
4 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
(71.5625; 105.9375] |
0 |
42 |
10 |
0 |
0 |
0 |
0 |
0 |
0 |
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
(105.9375; 140.3125] |
0 |
0 |
25 |
5 |
0 |
0 |
0 |
0 |
0 |
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
(140.3125; 174.6875] |
0 |
0 |
0 |
5 |
1 |
0 |
0 |
0 |
0 |
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
(174.6875; 209.0625] |
0 |
0 |
0 |
0 |
1 |
0 |
0 |
0 |
0 |
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
(209.0625; 243.4375] |
0 |
0 |
0 |
0 |
0 |
2 |
0 |
0 |
0 |
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
(243.4375; 277.8125] |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
|
|
|
|
|
|
|
|
|
|
(277.8125; 312.1875] |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
1 |
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
7
Теперь, зная частоты обоих рядов, построим корреляционную таблицу (см.
табл. 5):
Таблица 5 – Корреляционная таблица
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
10 |
60 |
110 |
160 |
210 |
260 |
310 |
360 |
410 |
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
20 |
4 |
− |
− |
− |
− |
− |
− |
− |
− |
4 |
|
|
|
|
|
|
|
|
|
|
|
54.375 |
11 |
4 |
− |
− |
− |
− |
− |
− |
− |
15 |
|
|
|
|
|
|
|
|
|
|
|
88.75 |
− |
42 |
10 |
− |
− |
− |
− |
− |
− |
52 |
|
|
|
|
|
|
|
|
|
|
|
123.125 |
− |
− |
25 |
5 |
− |
− |
− |
− |
− |
30 |
|
|
|
|
|
|
|
|
|
|
|
157.5 |
− |
− |
− |
5 |
1 |
− |
− |
− |
− |
6 |
|
|
|
|
|
|
|
|
|
|
|
191.875 |
− |
− |
− |
− |
1 |
− |
− |
− |
− |
1 |
|
|
|
|
|
|
|
|
|
|
|
226.25 |
− |
− |
− |
− |
− |
2 |
− |
− |
− |
2 |
|
|
|
|
|
|
|
|
|
|
|
260.625 |
− |
− |
− |
− |
− |
− |
− |
− |
− |
0 |
|
|
|
|
|
|
|
|
|
|
|
295 |
− |
− |
− |
− |
− |
− |
− |
− |
1 |
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
= |
15 |
46 |
35 |
10 |
2 |
2 |
0 |
0 |
1 |
|
|
|
= 111 |
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
8
Чтобы отыскать коэффициент корреляции, перейдём к условным вариантам. Тогда наша корреляционная таблица примет вид (см. табл. 6):
Таблица 6 – Переход к условным вариантам
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
−4 |
−3 |
−2 |
−1 |
0 |
1 |
2 |
33 |
4 |
|||
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
−4 |
4 |
− |
− |
− |
− |
− |
− |
− |
− |
4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
−3 |
11 |
4 |
− |
− |
− |
− |
− |
− |
− |
15 |
|
|
|
|
|
|
|
|
|
|
|
|
|
−2 |
− |
42 |
10 |
− |
− |
− |
− |
− |
− |
52 |
|
|
|
|
|
|
|
|
|
|
|
|
|
−1 |
− |
− |
25 |
5 |
− |
− |
− |
− |
− |
30 |
|
|
|
|
|
|
|
|
|
|
|
|
|
0 |
− |
− |
− |
5 |
1 |
− |
− |
− |
− |
6 |
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
− |
− |
− |
− |
1 |
− |
− |
− |
− |
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
− |
− |
− |
− |
− |
2 |
− |
− |
− |
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
3 |
− |
− |
− |
− |
− |
− |
− |
− |
− |
0 |
|
|
|
|
|
|
|
|
|
|
|
|
|
4 |
− |
− |
− |
− |
− |
− |
− |
− |
1 |
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
= |
|
15 |
46 |
35 |
10 |
2 |
2 |
0 |
0 |
1 |
|
||
|
= 111 |
||||||||||
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
Отсюда, по формуле (1) находим межгрупповое среднее. Результат представлен на рис. 1:
Рисунок 1
Также необходимо найти средние ̅ и ̅:
|
1 |
|
|
|
|
|
1 |
|
|
|
|
̅ = |
∑ |
≈ −1.6757, |
̅= |
∑ |
|
≈ −2.4505 |
|
||||
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
=1 |
|
|
|
|
=1 |
|
|
|
||
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
̅̅̅ |
|
Далее найдём |
и |
. Для этого необходимо найти средние квадратов |
2 |
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
и̅̅̅2:
9
̅̅̅ |
1 |
|
|
2 |
|
|
|
̅̅̅ |
1 |
|
|
|
2 |
|
|
|
|
|||||
|
2 |
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
||
|
|
= |
|
∑ |
|
≈ 4.1622, |
|
|
= |
|
|
∑ |
|
≈ 7.4054 |
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
=1 |
|
|
|
|
|
|
|
|
=1 |
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
И теперь мы можем найти |
и |
следующим образом: |
||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
̅̅̅ |
|
2 |
|
|
|
|
|
|
̅̅̅ |
|
|
2 |
|
|
|||
|
= √ |
2 |
|
|
|
|
|
= √ |
2 |
− ( ̅) |
|
≈ 1.1835 |
||||||||||
|
− (̅) ≈ 1.1637, |
|
|
|
|
|||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Осталось подставить все найденные значения в формулы (2) и (3) и мы получим корреляционный момент и коэффициент корреляции соответственно:
|
|
= ̅̅̅̅ − ̅ ∙ ̅≈ 1.2902, |
= |
|
|
≈ 0.9368 |
|
|
|
||||||
|
|
|
|||||
|
|
в |
|
|
|
||
|
|
|
|
|
|
Теперь построим доверительный интервал для нашего коэффициента корреляции. По условию задачи надёжность {0.95, 0.99}.
Для = 0.95, исходя из формул (4) и (5), имеем следующие границы
интервала: |
|
|
1 = 0.9091, |
2 |
= 0.9562 |
Для = 0.99, исходя из тех же двух формул, получаем такие границы |
||
интервала: |
|
|
1 = 0.8983, |
2 |
= 0.9610 |
Видно, что оба интервала – (0.9091, 0.9562) и (0.8983, 0.9610) –
покрывают данное значение коэффициента корреляции, причём второй интервал покрывает его с большей надёжностью.
И в конце проверим статистическую гипотезу о равенстве генерального коэффициента корреляции нулю. Для этого, по формуле (6), найдём значение наблюдаемого критерия. Результат представлен на рис. 2:
Рисунок 2
10