Коэффициент парной корреляции
Коэффициент парной корреляции вычисляется по формуле:
или
Алгоритм расчета коэффициента парной корреляции:
1) записывают исходные данные в два вариационных ряда – x и y;
2) вычисляют среднюю арифметическую ряда x и y;
3) определяют разность между членом ряда и средними величинами;
4) перемножают разности ряда x и y между собой;
5) находят сумму перемножаемых разностей (с учетом арифметического знака);
6) возводят в квадрат каждую разность (отклонение) ряда х и у;
7) определяют сумму квадратов отклонений (разностей) для ряда х и у отдельно;
8) подставляют полученные данные в исходную формулу и вычисляют коэффициент парной корреляции.
Пример. Определить корреляционную связь между строками введения противодифтерийной сыворотки и летальностью от этого заболевания.
День введения сыворотки (х) |
Летальность (у) |
dx |
dy |
dx2 |
dy2 |
dx*dx |
1-й |
2,0 |
-2 |
-5 |
4 |
25 |
10 |
2-й |
3,0 |
-1 |
-4 |
1 |
16 |
4 |
3-й |
7,0 |
0 |
0 |
0 |
0 |
0 |
4-й |
9,0 |
+1 |
+2 |
1 |
4 |
2 |
5-й |
14,0 |
+2 |
+7 |
4 |
49 |
14 |
xx = 3 |
xy = 7.0 |
Sdx=0 |
Sdy=0 |
Sdx2=10 |
Sdy2=94 |
Sdx*dy =30 |
Коэффициент корреляции равен +0,98. Связь положительная, сильная. Следовательно, между сроками введения сыворотки и летальностью от дифтерии имеется очень тесная зависимость. Число больных в этом примере равно 900.
Можно определить достоверность коэффициента корреляции, вычислив его среднюю ошибку для большого числа наблюдений (n>50) по формуле:
, или при меньшем числе наблюдений:
С достаточно большой надежностью можно утверждать, что зависимость неслучайна, если численное значение rxy превышает свою среднюю ошибку не менее чем в 3 раза.
Т.е. связь между признаками считается статистически значимой, если коэффициент корреляции превышает свою ошибку в 3 и более раз
В том случае, когда отношение коэффициента корреляции к его средней ошибки меньше 3, существование связи между изучаемыми явлениями нельзя признать доказанным.
Для малого числа наблюдений (n£30) степень надежности коэффициента корреляции может определяться по специальной таблице. При этом число наблюдений таблицы К (число степеней свободе n ) равно числу наблюдений в исследовании без двух, т.е. К = n-2. Как правило, коэффициент корреляции рассчитывается при числе коррелируемых пар не менее 5.
В медицинских и биологических исследованиях связь между признаками считается статистически значимой, если величина коэффициента корреляции больше или равна табличной при Р=0,05
Показатели оценки коэффициента корреляции при малом числе наблюдений
K |
P |
|||
0,1 |
0,05 |
0,02 |
0,01 |
|
1 |
0,988 |
0,997 |
0,9995 |
0,99988 |
2 |
900 |
950 |
980 |
990 |
3 |
800 |
878 |
934 |
959 |
4 |
729 |
811 |
882 |
917 |
5 |
669 |
754 |
883 |
874 |
6 |
662 |
707 |
789 |
834 |
7 |
582 |
666 |
750 |
798 |
8 |
549 |
632 |
716 |
765 |
9 |
521 |
602 |
685 |
735 |
10 |
497 |
576 |
658 |
708 |
11 |
476 |
532 |
634 |
684 |
12 |
458 |
532 |
612 |
661 |
13 |
441 |
514 |
592 |
641 |
14 |
426 |
497 |
574 |
623 |
15 |
412 |
482 |
558 |
606 |
16 |
400 |
468 |
542 |
590 |
17 |
389 |
456 |
528 |
575 |
18 |
378 |
444 |
516 |
561 |
19 |
369 |
433 |
503 |
549 |
20 |
360 |
423 |
492 |
537 |
25 |
323 |
381 |
445 |
487 |
30 |
296 |
349 |
409 |
449 |
35 |
275 |
325 |
381 |
418 |
40 |
257 |
304 |
358 |
393 |
45 |
243 |
288 |
338 |
354 |
50 |
231 |
273 |
322 |
354 |
60 |
211 |
250 |
295 |
325 |
70 |
195 |
232 |
274 |
302 |
80 |
183 |
217 |
256 |
283 |
90 |
173 |
205 |
242 |
267 |
100 |
164 |
195 |
230 |
254 |
Пример. В районах изучалась зависимость между охватом населения прививками и уровнем заболеваемости. Полученный коэффициент корреляции по этим двум признакам был равен 0,81. Число наблюдений – 8 районов (пар), следовательно, К равно 6 (8-2). По таблице находим строку 6 и сравниваем полученный коэффициент. При данном числе степеней свободы (К) коэффициент корреляции превышает табличный для вероятности Р=0,05 (графа 3). Отсюда с вероятностью, большей, чем 95%, можно утверждать, что зависимость между охватом населения прививками и заболеваемостью не случайна, и эта связь сильная, т.е. чем больше процент привитых, тем меньше уровень заболеваемости.