statistika_проц_22
.pdfставленными в Приложениях 5 и 6. Находим, что коэффициенту корреляции 0,94 соответствует z =1,74.
Находим
σz |
= |
1 |
= 0,58. |
|
|||
|
|
6 − 3 |
Отношение z к средней квадратической ошибке равно 3. Таким образом, мы можем полагать действительное наличие связи между величиной выпуска продукции и расходом электроэнергии для всей совокупности предприятий.
Наглядное представление об оценке достоверности (значимости) коэффициента корреляции дает таблица 6.8.
Таблица 6.8
Оценка достоверности (значимости) коэффициента корреляции
Характеристики |
Средняя |
Вывод о значимости |
|
|||||||||||||||||||||||||
коэффициента |
квадратическая |
коэффициента корреляции |
||||||||||||||||||||||||||
корреляции |
|
ошибка |
|
|
|
|
|
|
|
делается, если: |
|
|
|
|||||||||||||||
Большое число наблю- |
σ r = |
1 − r |
2 |
|
|
|
|
|
|
|
|
r |
|
≥ 3 |
|
|
|
|
|
|||||||||
дений, распределение |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
n −1 |
|
|
|
|
|
σ r |
|
|
|
|
|
|||||||||||||||||
приближенно нормаль- |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
íîå, r < 0,9 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Малое число наблюде- |
σr |
= |
|
|
1 |
− r2 |
|
|
|
|
|
tðàñ÷. > tòàáë. , ãäå |
|
|
|
|||||||||||||
íèé (n < 30), распреде- |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
n − 2 |
|
|
|
|
|
|
|
|
r |
|
|
|
|
r |
|
n −2 |
||||||||||
ление далеко от нор- |
|
|
|
|
|
|
|
|
|
tðàñ÷. = |
|
|
|
= |
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||
мального, r < 0,9 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
σr |
|
|
1−r2 |
|
|
|
||||||||||||||
|
|
|
|
|
|
|
|
|
tòàáë. находится по таблице рас- |
|||||||||||||||||||
|
|
|
|
|
|
|
|
|
пределения Стьюдента с пара- |
|||||||||||||||||||
|
|
|
|
|
|
|
|
|
метрами α;k = n − 2 |
|
|
|
||||||||||||||||
Малое число наблюде- |
σz |
= |
|
|
|
1 |
|
|
|
|
z |
|
|
≥ 3 , ãäå |
|
z = |
1 |
|
1 + r |
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||
íèé (n < 30), распреде- |
|
|
|
|
|
|
|
|
|
|
|
ln |
||||||||||||||||
|
|
n − 3 |
|
|||||||||||||||||||||||||
|
|
|
|
|
|
|||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
1 − r |
|||||||||||||||||||
ление далеко от нор- |
|
|
|
|
σz |
|
|
|
|
2 |
|
|||||||||||||||||
|
|
|
|
|
|
|
|
z — преобразование Фишера |
||||||||||||||||||||
мального, r > 0,9 |
|
|
|
|
|
|
|
|
201
6.9. Коэффициент корреляции рангов
Методы корреляционного и дисперсионного анализа не универсальны: их можно применять, если все изучаемые признаки являются количественными. При использовании этих методов нельзя обойтись без вычисления основных параметров распределения (средних величин, дисперсий), поэтому они получили название параметри- ческих методов.
Между тем в статистической практике изучения общественноэкономических явлений и процессов приходится сталкиваться с зада- чами измерения связи между качественными признаками, к которым параметрические методы анализа в их обычном виде неприменимы. Статистической наукой разработаны методы, с помощью которых можно измерить связь между явлениями, не используя при этом количественные значения признака, а значит, и параметры распределения. Такие методы получили название непараметрических.
В анализе социально-экономических явлений широко используются ранговые коэффициенты корреляции (коэффициенты корреляции рангов), когда коррелируют не непосредственные значения x и y, а их ранги, т. е. номера их мест, занимаемых в каждом ряду значений по возрастанию или убыванию. К таким непараметрическим коэффициентам относятся коэффициенты рангов Спирмена и Кендэлла.
Если n вариантов ряда расположены в соответствии с возрастанием или убыванием признака х, то говорят, что объекты ранжированы по этому признаку. Ранг для хi указывает место, которое занимает i-е значение признака среди других n значений признака
õ (i =1, 2, ...n).
Например, при исследовании рынка можно задаться целью выяснения предпочтений потребителей при выборе товара (при покупке акций, мороженого, водки и т.п.), таким образом, чтобы они распределили товар в порядке возрастания (или убывания) своих потребительских предпочтений. Если имеется два набора ранжированных данных, то можно установить степень линейной зависимости между ними.
Пример 6.7. Предположим имеется 5 продуктов, которые ранжированы по порядку предпочтений от 1 до 5 в соответствии с двумя характеристиками А и В.
202
Характеристики |
|
Продукты |
|
|
|
для ранжирования |
V |
W |
X |
Y |
Z |
A |
2 |
5 |
1 |
3 |
4 |
B |
1 |
3 |
2 |
4 |
5 |
Решение
Использование для определения интенсивности связи между признаками коэффициента К. Пирсона будет неверным, так как этот коэффициент применяется для признаков, измеряемых на количе- ственных шкалах. Так, например, при измерении взаимосвязи между ростом и весом, мы измеряет рост в сантиметрах, а вес в килограммах, при этом есть возможность точно определить на шкале измерений разницу в значении этих признаков для любого человека (или говоря другими словами, расстояние между ними на шкале измерений). Возьмем простейшую ранговую шкалу — экзаменационная оценка. Значит ли, что у получившего двойку студента знаний в два раза меньше, чем у того, кто получил четверку? Или двое студентов, получивших тройки имеют абсолютно одинаковый набор знаний? Ответ — нет, просто преподаватель упорядочивает их уровень знаний в определенной последовательности, в соответствии с критериями оценки знаний по конкретному предмету, но расстояние между значениями признаков на такой шкале не является строго фиксированным.
Для определения наличия взаимосвязи между ранговыми оценками используется коэффициент ранговой корреляции Спирмена.
Его расчет основан на различиях между рангами.
Для данных примера 6.8 обозначим D = ранг A – ранг B. Коэффициент Спирмена равен:
6∑D2 |
|
ρ = 1 − n(n2 −1) , |
(6.41) |
где n — число пар ранжированных наблюдений.
В примере имеем пять пар рангов, следовательно, n = 5. Cумма D2 равна: (2 – 1)2 + (5 – 3)2 + (1 – 2)2 + (3 – 4)2 + (4 – 5)2 = 1 + 4 + + 1 + 1 + 1 = 8.
Коэффициент Спирмена равен:
ρ = 1 |
− |
|
6 ×8 |
|
= 1 − |
|
48 |
= 0,6. |
|
×(25 −1) |
120 |
||||||
|
5 |
|
|
203
Коэффициент Спирмена изменяется в интервале от [–1; 1] и интерпретируется так же, как и коэффициент Пирсона. Разница лишь в том, что он вычисляется для ранжированных данных. То есть мы нашли достаточно сильную линейную связь
Значимость коэффициента Спирмена проверяется на основе t-критерия Стьюдента по формуле:
t |
= ρ |
n −1 |
. |
(6.42) |
|
||||
ðàñ÷. |
|
1 − ρ2 |
Значение коэффициента считается существенным, если tðàñ÷. > têðèò.
(α; k = n – 2).
Коэффицент корреляции рангов (при условии, что ранги не повторяются) может быть рассчитан и по формуле, предложенной английским статистиком М. Кендаллом:
τ = |
|
S |
, |
|
|
|
|
|
|
|
|
|
(6.43) |
||
1 |
n(n −1) |
|
|
||||
|
|
|
|
||||
|
|
|
|
|
|||
|
|
|
|
|
|
||
|
2 |
|
|
|
|
|
|
где S — фактическая сумма рангов; |
1 |
n(n −1) |
— максимальная |
||||
|
|||||||
|
|
|
|
|
2 |
|
сумма рангов.
Этот коэффициент изменяется в интервале от [–1; 1] — и интерпретируется так же, как и коэффициент Пирсона, но он дает
более строгую оценку связи, чем коэффициент Спирмена ρ ≈ 32τ . Это соотношение выполняется при большом числе наблюдений,
n > 30, и слабых, либо умеренно тесных связях.
При расчете коэффициента Кендалла соблюдается следующая последовательность действий:
1.Значения x ранжируются в порядке возрастания или убывания.
2.Значения y располагаются в порядке, соответствующем значе- ниям x.
3.Для каждого ранга y определяется число следующих за ним значений рангов, превышающих его величину. Результат записывается в столбец «+», суммируется и обозначается Р.
4.Для каждого ранга y определяется число следующих за ним меньших значений рангов. Результат записывается в столбец «–», суммируется и обозначается Q.
5.Определяется общая сумма S = P + Q.
204
Значимость коэффициента корреляции рангов Кендалла проверяется по формуле:
τ |
2(2n −5) |
|
> tα 9n(n −1), |
(6.44) |
ãäå tá — коэффициент, определяемый по таблице нормального распределения для выбранного уровня значимости б при больших n.
Пример 6.8. Рассчитаем коэффициент Кендалла на основании данных примера 6.11.
Решение
Проведем необходимые расчеты в таблице:
x |
y |
|
1-é øàã |
|
2-é øàã |
|
3-é øàã |
4-é øàã |
||
|
|
|
|
|
|
|
|
|
«+» |
«–» |
1,5 |
26 |
|
1,3 |
|
|
95 |
|
|
6 |
3 |
2,4 |
71 |
|
1,5 |
|
|
26 |
|
|
8 |
0 |
8,6 |
45 |
|
2,4 |
|
|
71 |
|
|
6 |
1 |
1,3 |
95 |
|
3,3 |
|
|
112 |
|
|
5 |
1 |
3,3 |
112 |
|
3,5 |
|
|
220 |
|
|
1 |
4 |
4,0 |
130 |
|
4,0 |
|
|
130 |
|
|
3 |
1 |
5,1 |
145 |
|
5,1 |
|
|
145 |
|
|
2 |
1 |
6,1 |
190 |
|
6,1 |
|
|
190 |
|
|
1 |
1 |
3,5 |
220 |
|
7,1 |
|
|
231 |
|
|
0 |
1 |
7,1 |
231 |
|
8,6 |
|
|
45 |
|
|
– |
– |
Итого |
– |
|
– |
|
|
|
|
P = 32 |
Q = –13 |
|
5-й шаг: S = P + Q = 32 + (–13) = 19, тогда |
|
|||||||||
|
τ = |
2S |
|
= |
2(32 −13) |
= 0,42. |
|
|||
|
n(n −1) |
|
10(10 −1) |
|
|
|||||
|
|
|
|
|
|
|
Действительно, если полученное значение ô умножить на 1,5, то получим 0,6 — значение коэффициента Спирмена.
6.10. Корреляция альтернативных признаков
Альтернативные признаки — это признаки, принимающие только два возможных значения. Исследования их корреляции основано на показателях, построенных на четырехклеточных таблицах, в которые сводятся значения признаков.
205