task_74895
.pdf50 ГЛАВА 2. ПРОВЕРКА СООТВЕТСТВИЯ ВЫБОРКИ…
Проведём проверку близости эмпирического распределения к нор- мальному по критерию Романовского. Вычислим, согласно (32), величину
c2 -k |
. Так как χ2 = χ02 =18,12 , k = 7, то |
c2 -k |
= |
|
18,12-7 |
||||||
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
||
|
2k |
|
|
2k |
|
|
14 |
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
= 2,97 < 3, т.е.
расхождение между эмпирическим и теоретическим распределением не- существенно, что позволяет утверждать, что данные выборки, характери- зующие обводненность нефти из насосных скважин по критерию Романов- ского подчиняются нормальному закону распределения. К такому же вы- воду мы приходим, применяя критерий Колмогорова (проверить самостоя- тельно).
Наконец, проведём проверку близости рассматриваемой выборки к нормальному распределению по приближенному критерию, используя вы- борочные статистики: асимметрию, эксцесс и их средние квадратические отклонения. В лабораторной работе № 1 были найдены As = 0,328,
Ex = −0,115 . Средние квадратические отклонения для асимметрии и экс- цесса находим по формулам (39) и (40):
|
|
|
|
|
|
|
|
|
|
|
|
6(n-1) |
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
SA |
|
= |
|
|
|
|
= |
|
6×99 |
= 0,24, |
||||||||||||||
|
|
|
|
|
|
|
|
(n+1)(n+3) |
101×103 |
||||||||||||||||||||
|
|
|
|
|
s |
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
|
24n(n-2)(n-3) |
|
|
|
|
|
|
|
||||||||||||||
|
|
SE |
|
= |
|
|
= |
24×100×98×97 |
= 0,46 . |
||||||||||||||||||||
|
|
x |
|
(n-1) |
2 |
(n+3)(n+5) |
99 |
2 |
×103×105 |
||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||
Так как |
|
As |
|
= 0,328 > SA |
и |
|
Ex |
|
= 0,115 < SE |
|
, то делаем вывод, что |
||||||||||||||||||
|
|
|
|
|
|||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
s |
|
|
|
|
|
|
|
|
|
|
|
|
|
x |
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
данные выборки, характеризующие обводненность нефти из насосных скважин, не подчиняются нормальному закону распределения.
Итак, для проверки согласованности эмпирического распределения с теоретическим нормальным мы применили 4 критерия, два из них под- твердили близость выборочной совокупности к нормальному распределе- нию. Однако, учитывая, что критерий Колмогорова является более мощ- ным, чем критерий χ2 Пирсона, и подтверждает близость рассматриваемой выборки к нормальному распределению, окончательно заключаем, что за закон распределения признака Х — обводненности нефти из насосных скважин — можно принять нормальное распределение.
З а м е ч а н и е. В качестве вариантов заданий для выполнения лабо- раторной работы № 2 следует брать дискретные вариационные ряды из ла- бораторной работы № 1, а так же значения статистик x , S , As , Ex .
ГЛАВА 3
ПАРНАЯ ЛИНЕЙНАЯ КОРРЕЛЯЦИЯ
§ 9. Понятие корреляционной зависимости. Задачи теории корреляции
В новых условиях хозяйственной деятельности предприятий возрас- тает роль экономико-математических методов для управления производст- вом. Управление производством — это сложный динамический процесс. Поэтому при выработке оптимального решения по управлению производ- ственно-хозяйственной деятельностью предприятия необходимо не только учитывать изменения параметров и характеристик, описывающих эту дея- тельность, но и уметь их прогнозировать, основываясь на экономических законах, которые наиболее полно отражают взаимосвязи основных показа- телей предприятия и его подразделений. Математическая формализация этих связей создает условия для экономического обоснования целесооб- разных объемов производимой продукции, определения ее качественных показателей и условий эффективного использования ресурсов.
Для решения этих задач применяют методы корреляционного анали- за. При анализе зависимостей между производственными показателями методами корреляционного анализа выделяют два основных типа пере- менных количественных признаков: независимые переменные (факторные признаки) и зависимые переменные (результативные признаки).
52 ГЛАВА 3. ПАРНАЯ ЛИНЕЙНАЯ КОРРЕЛЯЦИЯ
При изучении взаимосвязей между переменными признаками надо, прежде всего, установить, к какому типу зависимостей относится эта связь.
Зависимость между признаками X и Y называется корреляционной, если каждому возможному значению xi признака X сопоставляется ус-
ловная средняя соответствующего распределения признака Y .
Среднее арифметическое значение признака Y , вычисленное при ус- ловии, что признак X принимает фиксированное значение xi , называется
условным средним, обозначается через yxi |
и вычисляется по формуле: |
|
||
yx |
= |
å nij y j |
, |
(42) |
n |
||||
i |
|
xi |
|
|
где nij — частоты, показывающие сколько раз повторяются парные значе- ния xi , y j в данной выборке, nxi — частота появления значения хi.
Теория корреляции изучает такую зависимость между признаками X и Y , при которой с изменением одного признака меняется распределе- ние другого. Она применяется для того, чтобы при сложном взаимодейст- вии посторонних факторов выяснить, какова должна быть зависимость между признаками X и Y , если бы посторонние факторы не изменялись и своим изменением не искажали истинную статистическую зависимость [4].
В теории корреляции решается триединая задача, методологической основой которой является триада:
Модель — Свойства — Адекватность.
Первая задача — поиск подходящей модели. На основе опытных данных выявляется характер корреляционной зависимости между призна- ками X и Y . При парной корреляции для ее решения применяют графиче- ский метод. Если в корреляционном поле точки (xi , y j ) хорошо ложатся
на прямую, то можно предположить, что связь между признаками X и Y носит линейный характер. Если точки не ложатся на прямую, то связь бу- дет нелинейной. Исходя из геометрических соображений, выбирают урав- нение линии, которое называют уравнением регрессии, и находят неиз- вестные параметры, входящие в уравнение.
Вторая задача — изучение свойств модели. Определяется теснота связи между признаками, включенными в модель, по коэффициенту r кор- реляции (в случае линейной корреляции) или по корреляционным отноше- ниям ηyx, ηxy (в случае криволинейной корреляции).
Третья задача — выявление степени адекватности построенной кор- реляционной модели (проверяется соответствие полученного уравнения регрессии опытным данным). Если данная модель оказалась не адекватной, то всё начинается сначала — строят новую модель.
§ 10. Парная линейная корреляция
Предположим, что на основе геометрических, физических или дру- гих соображений установлено, что между двумя количественными призна- ками X и Y существует линейная корреляционная зависимость. Тогда уравнение регрессии записывают в виде:
ˆ |
+ a1 x . |
(43) |
yx = a0 |
Пусть опытные данные не сгруппированы в корреляционную табли- цу, т. е. заданы в виде табл. 18.
Т а б л и ц а 1 8
xi |
x1 |
x2 |
x3 |
… |
xk |
yi |
y1 |
y2 |
y3 |
… |
yk |
В этом случае значения а0, а1, являющиеся оценками истинных вели- чин уравнения регрессии, находят по методу наименьших квадратов [4], решая систему линейных алгебраических уравнений (СЛАУ) относительно
а0, а1:
k |
k |
где [x] = åxi , [y] = å yi |
|
i=1 |
i=1 |
ì na0 + [x]a1 = [y], |
(44) |
|||
í[x]a |
0 |
+ [x2 |
]a = [xy], |
|
î |
|
1 |
|
|
|
|
k |
k |
|
, [x2 ] = åxi2 |
, [xy] = åxi yi . |
|
||
|
|
i=1 |
i=1 |
|
54 |
Глава 3. ПАРНАЯ ЛИНЕЙНАЯ КОРРЕЛЯЦИЯ |
Для нахождения сумм, входящих в систему (44), составляется табл.
19.
|
|
|
Т а б л и ц а 1 9 |
xi |
yi |
xi yi |
x2 |
|
|
|
i |
|
|
|
|
[x] |
[y] |
[xy] |
[x2] |
Если опытные данные сгруппированы в корреляционную таблицу, то значения a0 и a1 уравнения регрессии (43) находят по методу наименьших
квадратов, решая СЛАУ |
|
|
|
|
|
|
|
|
|
|
|
ì |
|
na |
0 |
+ [n |
x |
x]a = [n |
y |
y], |
|
||
ï |
|
|
|
|
1 |
|
|
(45) |
|||
í |
|
x]a |
|
+ [n |
|
x2 ]a = [n |
|
|
xy], |
||
ï[n |
x |
0 |
x |
xy |
|
||||||
î |
|
|
|
1 |
|
|
где nx и ny — частоты признаков X и Y , nxy — частота совместного по-
явления признаков X |
и Y . Для нахождения сумм, входящих в систему |
|||||||||||
(45), составляется табл. 20. |
|
|
|
|
|
Т а б л и ц а 2 0 |
||||||
|
|
|
|
|
|
|
|
|
|
|||
|
x |
x |
|
x |
2 |
|
… |
x |
k |
ny |
ny y |
|
|
y |
|
|
|
||||||||
|
1 |
|
|
|
|
|
|
|
|
|||
|
y1 |
|
|
|
|
|
… |
|
|
|
|
|
|
y2 |
|
|
|
|
|
… |
|
|
|
|
|
|
… |
… |
|
… |
|
… |
… |
… |
… |
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ym |
|
|
|
|
|
… |
|
|
|
|
|
|
nx |
|
|
|
|
|
… |
|
|
|
[ny y] |
|
|
nx x |
|
|
|
|
|
… |
|
|
[nx x] |
|
|
|
nx x2 |
|
|
|
|
|
… |
|
|
[nx x2 ] |
|
|
|
nxy xy |
|
|
|
|
|
… |
|
|
[nxy xy] |
|
|
Суммы [nx x], |
[nx x2 ], |
[nxy xy] |
в табл. 20 |
находятся по строкам, а сумма |
[ny y] — по последнему столбцу табл. 20.
В уравнении регрессии (43) параметр a0 характеризует усредненное
влияние на результативный признак Y неучтенных (не выявленных для исследования) факторных признаков Xi . Параметр a1 показывает, на
сколько изменяется в среднем значение результативного признака Y при увеличении факторного признака на единицу.
Используя параметр a1 , вычисляют [9] коэффициент эластичности Kэ по формуле:
K |
|
= a |
|
|
|
|
|
|
x |
|
|||||
|
|
|
|
|
|
||
|
э |
1 |
|
y . |
(46) |
§ 10. Парная линейная корреляция |
55 |
Коэффициент эластичности Kэ показывает, на сколько процентов
изменяется результативный признак Y при изменении факторного призна- ка X на 1 %.
В случае линейной корреляционной зависимости между признаками X и Y , уравнения регрессий находят [4] по формулам:
|
|
|
|
|
|
yˆx |
= y + r |
|
|
S y |
|
(x − x) , |
|
|
|
(47) |
||||||||||||||||||
|
|
|
|
|
|
|
|
Sx |
|
|
|
|
|
|||||||||||||||||||||
|
|
|
|
|
|
xˆy |
= x + r |
|
|
Sx |
|
(y − y) , |
|
|
|
(48) |
||||||||||||||||||
|
|
|
|
|
|
|
|
S y |
|
|
|
|
|
|||||||||||||||||||||
где x , y — выборочные средние признаков |
|
X |
и Y ; Sx , S y |
— выбороч- |
||||||||||||||||||||||||||||||
ные средние квадратические отклонения признаков X |
и Y , вычисляемые |
|||||||||||||||||||||||||||||||||
по формулам: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ˆ 2 |
|
|
|
|
|
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
ˆ |
|
|
|
|
|
|
|
|
|
1 |
å(xi − x) |
2 |
|
|
|
|
||||||||||||||||||
|
ˆ 2 |
|
|
|
|
|
|
|
||||||||||||||||||||||||||
|
|
, где |
= n−1 |
|
|
(n < 50) , |
(49) |
|||||||||||||||||||||||||||
Sx = |
|
Sx |
Sx |
|
|
|||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
i=1 |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
|
|
|
|
|
|
|||
ˆ |
|
|
|
|
ˆ 2 |
|
|
|
|
|
ˆ 2 |
|
|
|
1 |
|
|
|
|
2 |
|
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
S y = |
|
S y |
, где S y |
= |
n−1 |
|
å(yi − y) |
|
(n |
< 50) . |
(50) |
|||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
i=1 |
|
|
|
|
|
|
||||
При n ³ 50 S x |
и S y |
находят по формулам: |
|
|
|
|
|
|
||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
S x2 , где S x2 |
|
|
|
|
|
|
|||||||||||||||||||
|
|
|
|
S x |
= |
|
|
= 1n å(xi − x)2 , |
|
(51) |
||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
i=1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
S y |
= |
|
|
S y2 , где S y2 |
|
= 1n å(yi − y)2 . |
|
(52) |
||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
i=1 |
|
|
|
|
|
|
Коэффициент линейной корреляции r находят по формуле: |
||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
r = |
|
- |
|
× |
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
xy |
|
|
|
|
|
|
||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
x |
y |
, |
|
|
|
|
|
(53) |
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Sx ×Sy |
|
|
|
|
|
|||||||||||
где xy — средняя произведения значений признаков |
X и Y , x , y — |
|||||||||||||||||||||||||||||||||
средние значения признаков X и Y , Sx , S y |
— выборочные средние квад- |
ратические отклонения признаков X и Y , вычисленные по формулам (49) и (50), если n < 50 , или по формулам (51) и (52), если n ³ 50 .
Уравнение (47) называют уравнением регрессии y на x , а уравнение
(48) — уравнением регрессии x на y .
56 |
Глава 3. ПАРНАЯ ЛИНЕЙНАЯ КОРРЕЛЯЦИЯ |
Если данные выборки для признаков X и Y заданы в виде корреля- ционной таблицы и объем выборки n > 30 , то для нахождения величин, входящих в уравнения линий регрессий (47) и (48), переходят к вспомога- тельному распределению с условными вариантами ui и v j , вычисляемых
по формулам:
ui = |
x −C |
|
|
|
|
|
i 1 |
, |
(54) |
||||
h1 |
||||||
|
y |
−C |
2 |
|
|
|
v j = |
|
j |
, |
(55) |
||
|
h2 |
|
где C1 = M0 X , C2 = M 0Y , h1 и h2 — шаги значений признаков X и Y . Выборочный коэффициент линейной корреляции r в этом случае
находят по формуле
|
|
|
|
|
|
r = |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
å nuv uv-nu |
v |
, |
|
|
|
|
|
|
|
|
|
|
|
|
(56) |
||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
nSu Sv |
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
где |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
Su |
= |
|
|
|
|
|
|
|
− |
|
2 , Sv |
= |
|
|
− |
|
2 . |
|
|
|
|
(57) |
|||||||||||
|
|
|
|
|
|
|
|
u2 |
u |
v2 |
v |
|
|
|
|
||||||||||||||||||||||||
Для нахождения суммы ånuv uv составляется расчетная табл. 21. |
|
|
|||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Т а б л и ц а 2 1 |
||||
|
u |
|
v |
|
|
v1 |
|
|
|
|
|
|
|
|
|
|
v2 |
|
|
|
|
… |
|
|
|
|
|
|
vk |
|
nu |
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||
|
u |
|
|
|
u1v1 |
|
|
|
|
|
|
|
|
|
|
u1v2 |
|
|
|
|
… |
|
|
|
|
|
|
|
u1vk |
|
nu |
|
|
||||||
|
|
|
|
|
|
|
nu v |
|
|
|
|
|
|
|
nu v |
|
|
|
|
||||||||||||||||||||
|
|
1 |
|
|
nu v |
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
k |
|
|
1 |
|
|||||||||||||
|
|
|
|
1 1 |
|
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
|
|
|
|
||||||||||||
|
u |
2 |
|
|
|
u2v1 |
|
|
|
|
|
|
|
|
|
|
u2v2 |
|
|
|
|
… |
|
|
|
|
|
|
|
u2vk |
|
nu |
|
|
|||||
|
|
|
nu v |
|
|
|
nu |
v |
|
|
|
|
|
|
|
|
|
|
|
|
|
nu |
v |
|
|
2 |
|
||||||||||||
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
k |
|
|
|
||||||||||||||||
|
|
|
|
2 |
1 |
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|||||||||
|
… |
|
|
|
… |
|
|
|
|
|
|
|
|
|
… |
|
|
|
|
… |
|
|
|
|
|
|
… |
|
… |
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
un |
|
|
|
unv1 |
|
|
|
|
|
|
|
|
|
|
unv2 |
|
|
|
|
… |
|
|
|
|
|
|
|
unvk |
|
nun |
|
|||||||
|
|
|
nu v |
|
|
|
nu |
v |
2 |
|
|
|
|
|
|
|
|
|
|
|
|
nu |
v |
k |
|
|
|||||||||||||
|
|
|
|
|
n |
1 |
|
|
|
|
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
|
|
|
|
|
|
||
|
nv |
|
|
|
nv1 |
|
|
|
|
|
|
|
|
nv2 |
|
|
|
|
… |
|
|
|
|
|
nvk |
|
ånuvuv |
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||
Статистики x , |
|
y , Sx , S y находят по формулам: |
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||
|
|
|
x = |
uh1 + C1, |
|
= |
|
h2 + C2 , Sx = Suh1 , Sy = Svh2 . |
|
(58) |
|||||||||||||||||||||||||||||
|
|
|
y |
v |
|
§ 11. Коэффициент корреляции, его свойства и значимость
После выбора функции как формы корреляционной зависимости ме- жду признаками X и Y решается задача, состоящая в определении тесно- ты связи между ними, в оценке рассеяния относительно линии регрессии
y y
r > 0 r < 0
0 |
x |
0 |
x |
|
Рис. 6. |
|
Рис. 7. |
58 |
Глава 3. ПАРНАЯ ЛИНЕЙНАЯ КОРРЕЛЯЦИЯ |
значений одного признака для различных значений другого. Для этого ис- пользуют выборочный коэффициент r корреляции, который вычисляют по формуле (53). Линейный коэффициент корреляции изменяется на отрезке [–1; 1], т.е. | r | ≤ 1. Если r = ±1, то корреляционная зависимость становится функциональной. В случае r > 0 говорят о положительной корреляции ве- личин X, Y (рис. 6); например, вес и рост человека связаны положительной корреляцией; в случае r < 0 — об отрицательной корреляции (рис. 7). По- ложительная корреляция между случайными величинами означает, что при возрастании одной из них другая имеет тенденцию в среднем возрастать; отрицательная корреляция означает, что при возрастании одной из случай- ных величин другая имеет тенденцию в среднем убывать.
Если r = 0 , то линейная связь между признаками Х и Y отсутствует, но может существовать криволинейная корреляционная связь или нели- нейная функциональная.
Оценку тесноты линейной корреляционной связи определяют [4], пользуясь табл. 22.
|
|
Т а б л и ц а 2 2 |
|
Теснота связи |
Величина r |
||
Положительная |
Отрицательная |
||
|
|||
Линейной связи нет |
0 ÷ 0,2 |
0 ÷ −0,2 |
|
|
|
|
|
Слабая |
0,2 ÷ 0,5 |
− 0,2 ÷ −0,5 |
|
|
|
|
|
Средняя |
0,5 ÷ 0,75 |
− 0,5 ÷ −0,75 |
|
|
|
|
|
Сильная |
0,75 ÷ 0,95 |
− 0,75 ÷ −0,95 |
|
|
|
|
|
Функциональная |
0,95 ÷1 |
− 0,95 ÷ −1 |
|
|
|
|
Значимость выборочного коэффициента корреляции проверяют по критерию Стьюдента. По опытным данным вычисляют расчетную стати- стику tp , пользуясь формулой:
tp = |
|
r |
|
n−2 |
|
. |
(59) |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
||||
|
|
1−r |
2 |
|||||||
|
|
|
|
|
|
|
|
|
Затем по таблице критических точек распределения Стьюдента (при- ложение 6) по заданному уровню значимости α и числу степеней свободы k = n − 2 находят табличное значение tкр двусторонней критической об-
ласти. Если tp < tкр , то коэффициент корреляции r — незначимый (мало отличается от нуля) и признаки X и Y некоррелированы. Если tp > tкр , то приходят к выводу о наличии линейной корреляционной связи [4].
§ 12. Определение надежности (доверительного интервала) коэффициента корреляции
Коэффициент корреляции, как правило, рассчитывается по данным выборки. Чтобы полученный результат распространить на генеральную совокупность, возможно возникновение некоторой ошибки, которую оце- нивают с помощью средней квадратичной ошибки σr . С помощью σr
производят оценку надежности коэффициента корреляции, построив дове- рительные интервалы для различных объемов выборки [2]. Пусть число n наблюдений пар чисел (x; y) меньше 50 (n < 50). В этом случае средняя
квадратическая ошибка σr вычисляется по формуле
σr = |
1 |
−r 2 |
|
, |
(60) |
|
|
|
|
||||
n−2 |
||||||
|
|
|
|
|
где r — коэффициент парной линейной корреляции, n — объем выборки. Доверительный интервал для оценки r находят по формуле
ˆ |
≤ r + tγ σ r , |
(61) |
r − tγ σ r ≤ r |
||
где tγ находят по таблице значений функции Лапласа Φ(x) |
(приложение |
2). Если задать надежность γ = 0,95, то Φ(x) = 2γ = 0,475 и tγ =1,96 .
Если объем выборки n > 50 , то погрешность σr для коэффициента
корреляции r находят также по формуле (60). Затем вычисляют отноше- ние r / σr . Если это отношение больше 3, то можно считать, что найденный
коэффициент корреляции r отражает истинную зависимость между при- знаками X и Y . Величина r − 3σr является, как правило, гарантийным
минимумом, а величина r + 3σr — гарантийным максимумом коэффици-
ента корреляции r и доверительный интервал для оценки r |
запишется в |
|
виде |
|
|
ˆ |
≤ r + 3σ r . |
(62) |
r − 3σ r ≤ r |