Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

statistika_проц_22

.pdf
Скачиваний:
863
Добавлен:
11.04.2015
Размер:
2.41 Mб
Скачать

Формула межгрупповой дисперсии имеет следующий вид:

 

 

(pi

 

)2ni

 

 

2

=

p

 

 

δpi

 

 

 

 

,

(6.25)

ni

 

 

 

 

ãäå ni — численность единиц в отдельных группах;

ði — доля изучаемого признака во всей совокупности, которая определяется по формуле:

 

 

 

 

 

pini

 

 

 

p =

ni

.

 

(6.26)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Общая дисперсия определяется по формуле

 

σ

2

 

=

 

(1 −

 

).

(6.27)

 

p

p

p

Три вида дисперсий объединены между собой следующим образом:

 

 

 

 

 

 

σ

2

= σpi2 + δpi2 .

(6.28)

p

Это — правило сложения дисперсии доли признака.

Пример 6.5. Имеются следующие данные об удельном весе основных рабочих в трех цехах фирмы:

 

 

Таблица 6.5

 

Удельный вес основных рабочих фирмы

 

 

 

Öåõ

Удельный вес основных

Численность всех рабочих в %

рабочих в % (pi)

 

 

1

80

100

2

75

200

3

90

150

Итого

450

Решение

Определим долю рабочих в целом по фирме:

 

 

=

0,80 100 + 0,75 200 + 0,90 150

=

365

= 0,81.

p

 

450

450

 

 

 

 

 

Общая дисперсия доли основных рабочих по всей фирме в целом будет равна:

σp2 = 0,81 (1 − 0,81) = 0,154.

191

Внутрицеховые дисперсии:

σp21

= 0,8 0,2

= 0,16;

σp2

2

= 0,75 0,25 = 0,19;

σp2

3

= 0,9 0,1

= 0,09.

Средняя из внутригрупповых дисперсий:

 

 

 

 

 

 

 

=

0,16 100 + 0,19 200 + 0,09 150

=

675

= 0,15.

 

 

 

σpi2

 

 

 

 

450

 

450

 

 

 

Межгрупповая дисперсия:

 

 

 

 

δpi2 =

(0,8 − 0,81)2 100 + (0,75 − 0,81)2 200 + (0,9 − 0,81)2 150

=

 

 

450

 

 

 

 

= 365450 = 0,004.

Проверка вычислений показывает: 0,154 = 0,15 + 0,004.

6.6. Виды и формы связей, различаемые в статистике

Современная наука об обществе объясняет суть явлений через изучение их взаимосвязи. Например, объем валютных торгов зависит от спроса на валюту, который в свою очередь определяется состоянием экономики, активностью внешнеэкономической деятельности субъектов и др., объем продукции предприятия связан с численностью работников, стоимостью основных фондов и т.д.

Различают два типа взаимосвязей между различными явлениями и их признаками: жестко детерминированную и стохастически детерминированную.

Функциональная жестко детерминированная связь — это вид причинной зависимости, при которой определенному значению факторного признака соответствует одно или несколько точно заданных значений результативного признака. Этот вид связи встречается чаще в естественных науках, например, площадь круга равна S = πr2. Где бы ни был изображен круг, его площадь всегда пропорциональна квадрату радиуса. Можно привести примеры и из экономики, например, при простой сдельной оплате труда связь между оплатой

192

труда y и количеством изготовленных изделий x при фиксированной расценке за одну деталь n денежных единиц выражается формулой y = nx.

Стохастическая связь — это вид причинной зависимости, проявляющейся не в каждом отдельном случае, а в общем, среднем, при большом числе наблюдений.

Термин «стохастический» происходит от греческого Stochos — мишень или бычий глаз. Стреляя в мишень, даже хороший стрелок редко попадает в ее центр, выстрелы ложатся в некоторой области, близкой от цели, в этом смысле стохастическая связь означает, что предсказание точного значения признака имеет приближенный характер.

Например, зависимость цены товара от качества. В отдельных случаях соотношение спроса и предложения может привести к тому, что товар худшего качества будет продан по более высокой цене, но при достаточно большом числе продаж, аналогичный товар лучшего качества будет иметь более высокую цену. Другой пример, зависимость роста детей от роста родителей. В семьях, где родители более высокого роста, дети тоже имеют рост выше среднего. Однако эта зависимость проявляется лишь при большом числе наблюдений. В этом смысле, стохастическая или можно сказать статистическая связь не отождествляется со случайным процессом, который имеет место, например, в физике, (броуновский процесс), поскольку она опосредуется статистической закономерностью.

Среди взаимосвязанных признаков одни могут рассматриваться как определенные факторы, влияющие на изменение других, а вторые как следствие, результат влияния первых. Соответственно первые, то есть признаки, влияющие на изменение других, называют факторными, а вторые — результативными. Стохастические взаимосвязи могут быть изучены различными способами. Наиболее известный из них метод изучения корреляционных связей.

Корреляционная связь (от английского слова correlation — соотношение, соответствие) — частный случай стохастической связи, состоящей в том, что c изменением факторного признака (х) закономерным образом изменяется среднее значение результативного признака (y), в то время как в каждом отдельном случае y может принимать множество различных значений. Отсюда задача измерения силы корреляционной связи состоит в нахождении меры совместной вариации двух признаков.

193

Типы взаимосвязей по характеру зависимости, различаемые в статистике, представлены на рисунке 6.3.

 

 

 

Типы взаимосвязей

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

жестко

 

 

 

стохастически

 

детерминированная

 

 

 

детерминированная

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

корреляционная

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 6.3. Типы взаимосвязей по характеру зависимости

Корреляционная связь между признаками может возникать различными путями. Важнейший путь — взаимосвязь вариации результативного признака с вариацией факторного признака. Обычно в этом случае говорят о взаимосвязи признаков. Например, y — урожайность сельскохозяйственной культуры, х — балл оценки плодородия почв. Либо, y — сумма налоговых поступлений в региональный бюджет, x — выручка от реализации продукции. Здесь совершенно логически ясно, какой признак выступает как независимая переменная (фактор), какой как зависимая переменная (результат).

Очень важно понимание сути изучаемой связи, поскольку корреляционная связь может возникнуть между двумя следствиями общей причины. В таком случае мы можем оценить, так называемую, ложную корреляцию. Здесь можно привести множество примеров. Так классическим является пример, приведенный известным статистиком начала XX века А.А. Чупровым. Он выяснил, что если в качестве признака х взять число пожарных команд в городе, а за признак y — сумму убытков в городе от пожаров, то между признаками х и y в совокупности городов в России возникнет существенная прямая корреляция. В среднем, чем больше пожарников в городе, тем больше убытков от пожаров. В чем же дело? Данную корреляцию нельзя интерпретировать как связь причины и следствия, оба признака — следствия общей причины — размера города. В крупных городах больше пожарных частей, но больше и пожаров, и убытков от них за год, чем в мелких городах.

194

Другой пример, в течение ряда лет резкие скачки роста цены валюты влекут за собой и рост объемов покупки валюты частными лицами. Здесь также нельзя рассматривать эти два явления как причину и следствие. Общая причина — обострение финансового кризиса, ведущее к росту курсовой стоимости валюты и стремлению населения сохранить свои накопления.

Корреляция возникает и в случае, когда каждый из признаков и причина, и следствие. Например, при сдельной оплате труда существует корреляция между производительностью труда и заработком. С одной стороны, чем выше производительность труда, тем выше заработок. С другой стороны, высокий заработок сам по себе является стимулирующим фактором, заставляющим работника трудиться более интенсивно.

По направлению выделяют связь прямую и обратную (положительную и отрицательную). По аналитическому выражению — линейную и нелинейную.

Классифицировать также можно следующим образом (рис. 6.4):

 

 

 

 

 

Классификация связей

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

по направлению

 

 

 

по аналитическому выражению

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

прямая

 

обратная

 

 

прямолинейная

 

 

криволинейная

 

(положительная)

 

(отрицательная)

 

 

(линейная)

 

 

(нелинейная)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 6.4. Классификация связей

6.7.Измерение тесноты связи

âслучае корреляционной зависимости

Большинство методов измерения тесноты связи заключается в сопоставлении отклонений значений признаков от их средних. Это основано на предположении, что при полной независимости признаков отклонения значений факторного признака от средней (x − x) носят случайный характер и должны случайно сочетаться с раз-

195

личными отклонениями (y − y) . При наличии значительного перевеса совпадений или несовпадений таких отклонения делается предположение о наличии связи между х и y.

Самый известный измеритель тесноты связи между признаками — линейный коэффициент парной корреляции Пирсона (назван по имени английского статистика К. Пирсона, введшего этот коэффициент в научный анализ), характеризующий тесноту и направление связи между двумя признаками в случае наличия между ними линейной зависимости.

Что представляет собой этот коэффициент? Рассморим следующий пример.

Пример 6.6. Имеются данные о выпуске продукции на 6 однотипных предприятиях (х) и потреблении на них электриче- ства (у) (таблица 6.7):

Таблица 6.6

Зависимость потребления электричества от объема выпуска продукции

Выпуск продукции

5

7

10

12

15

17

Потребление электричества

17

22

26

24

30

42

Сделать вывод о наличии, характере и форме связи.

Решение

Рассчитаем средние арифметические значения для х и у:

x = 5 + 7 +10 +12 +15 +17 = 11 6

y = 17 + 22 + 26 + 24 + 30 + 42 ≈ 26,83. 6

Рассчитаем индивидуальные отклонения вариантов от их средних арифметических значений:

(x −

 

)

–6

–4

–1

1

4

6

x

(y −

 

 

 

)

–9,83

–4,83

–0,83

–2,83

3,17

15,17

y

196

Запишем расчеты в виде среднего значения совместных отклонений признаков от их средних значений:

C = (x − x)(y − y) =

n

=

(−6) (−9,85) + (−4) (−4,83) + (−1) (−0,83) + 1

(−2,83) + 4 3,17 + 6 15,17

=

 

6

 

 

 

 

 

 

 

 

=

180,12

 

= 30,02.

(6.29)

 

 

6

 

 

 

Полученное значение называется коэффициентом ковариации. Это — мера совместной вариации признаков. Или можно сказать, что это — мера соответствия вариации результативного признака вариации факторного. Недостатком коэффициента ковариации является то, что он не нормирован. Для преодоления этого недостатка полученное выражение разделим на среднее квадратическое

отклонение по х и по y. σ[x = 4,2, σy = 7,84.

 

 

(x −

 

)(y −

 

)

 

30,96

 

 

r =

x

y

=

= 0,912.

(6.30)

nσxσy

4,2

7,84

 

 

 

 

Полученное значение — линейный коэффициент парной корреляции, показатель интенсивности (силы) линейной связи. Это — безразмерная величина, которая изменяется в интервале от –1 до +1, −1 ≤ r ≤1.

Качественная оценка степени интенсивности связи между признаками производится по шкале Чеддока (табл. 6.7).

Таблица 6.7

Критерии оценки тесноты связи линейного коэффициента парной корреляции К. Пирсона

Значения

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

коэффи-

äî

 

 

±0,3

 

 

±0,5

 

 

±0,5

 

 

±0,7

 

 

±0,7

 

 

±0,9

 

 

±0,9

 

 

±1,0

 

циента

 

±0,3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

корреля-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

öèè

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Характе-

слабая

 

умеренная

 

 

заметная

 

 

Высокая

 

достаточно

 

ристика

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

высокая

 

тесноты

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

связи

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

197

Путем ряда преобразований можно получить следующие аналитические выражения для коэффициента корреляции:

 

 

xy

 

 

 

 

,

 

r =

 

x

y

(6.31)

 

 

 

 

 

 

 

 

 

σxσy

 

ãäå xy = xy , n

èëè

r =

(x x)(y y)

 

(x x)2 (y y)2 .

(6.32)

Производя расчет по итоговым значениям исходных переменных, линейный коэффициент корреляции можно вычислить по формуле:

r =

 

nxy x y

 

 

.

 

 

 

 

 

 

 

 

nx2

(∑ x)2

 

ny2

(∑ y)2

 

(6.33)

 

 

 

 

 

 

 

 

Линейный коэффициент корреляции имеет большое значение при исследовании социально-экономических явлений и процессов, распределения которых близки к нормальному.

6.8. Оценка достоверности коэффициента корреляции

Коэффициент линейной корреляции, исчисленный по выбороч- ным данным является случайной величиной. Полученный из выборки коэффициент корреляции r является оценкой коэффициента корреляции r в генеральной совокупности. С уменьшением числа наблюдений надежность коэффициента корреляции падает. Оценка существенности (значимости) линейного коэффициента корреляции основана на сопоставлении значения r с его средней квадратической ошибкой σr :

 

r

 

,

(6.36)

 

 

 

σr

 

При оценке значимости коэффициента корреляции обычно рассматриваются следующие ситуации.

198

1. Если число наблюдений достаточно велико (обычно свыше 30), а значение коэффициента корреляции не превышает 0,9, распределение коэффициента корреляции r можно считать приближенно нормальным со средней квадратической ошибкой

σr

=

1 − r2

.

(6.35)

 

 

 

n −1

 

При достаточно большом числе наблюдений r должен превы-

шать свою среднюю ошибку не менее, чем в три раза: r ≥ 3. Åñëè

σr

это неравенство не выполняется, то существование связи между признаками нельзя считать доказанным.

Задавшись определенной вероятностью, можно построить доверительные границы r:

r − trσr ρ ≤ r + trσr .

(6.36)

ãäå ρ — генеральное значение коэффициента корреляции в генеральной совокупности;

tr — заданный уровень вероятности.

Так, например, при вероятности 0,95, для которой t = 1,96, доверительные границы составят

r ±1,96 1 − r2 . n −1

При вероятности 0,997, для которой коэффициент доверия t = 3, доверительные границы составят

r ± 3 1 − r2 . n −1

Поскольку значение r не может превышать единицу, то в слу- чае, если r +3σ > 1, следует указать только нижний предел, то есть утверждать, что реальный r не меньше, чем r −3σ .

2. Для малого объема выборки, с распределением r далеким от нормального, применяются другие методы оценки значимости коэффициента корреляции. При небольшом числе наблюдений (n < 30), средняя ошибка линейного коэффициента корреляции находится по формуле:

σr

=

1 − r2

,

(6.37)

n − 2

 

 

 

 

199

а значимость проверяется на основе t-критерия Стьюдента. При этом выдвигается гипотеза о равенстве коэффициента корреляции нулю, то есть об отсутствии связи между y и x в генеральной совокупности. Для этого используется статистика:

t

=

 

r

 

=

r

n −2

,

(6.38)

 

 

 

 

 

 

 

 

 

 

ðàñ÷.

σr

1− r2

расчетное значение которой сопоставляется с табличным, из таблиц распределения Стьюдента. Если нулевая гипотеза верна, т. е. r = 0, то распределение t-критерия подчиняется закону распределения Стьюдента с n –2 степенями свободы и принятым уровнем значимости α (обычно 0,05). В каждом конкретном случае по таблице распределения t-критерия Стьюдента находится табличное (критическое) значение t, которое допустимо при справедливости нулевой гипотезы, и с ним сравнивается фактическое (расчетное) зна-

чение t. Если tðàñ÷. > tòàáë., то нулевая гипотеза отклоняется и линейный коэффициент считается значимым, а связь между x и y — суще-

ственной. И наоборот.

3. При малом числе наблюдений в выборке и высоком коэффициенте корреляции (распределение r отличается от нормального) для проверки гипотезы о наличии корреляционной связи, а также построения доверительного интервала применяется z-преобразова- ние Фишера.

Для этого рассчитывается величина

z =

1

ln

1 + r

.

(6.39)

 

 

 

2

1 − r

 

Распределение z приближается к нормальному. Вариация z выражается формулой

σz

=

1

.

(6.40)

 

 

 

n −3

 

Рассчитаем z-критерий для примера 6.7, поскольку в этом слу- чае мы имеем небольшое число наблюдений и высокий коэффициент корреляции.

z = 12 ln 11 +− 0,9120,912 = 1,74.

Чтобы не вычислять значения логарифмов, можно воспользоваться специальными таблицами z-преобразований Фишера, пред-

200

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]