Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
СборПракПосл.doc
Скачиваний:
12
Добавлен:
11.04.2015
Размер:
4.16 Mб
Скачать

Выводы.

1.Уровень загрязнения БП жилых кварталов Первомайского района не отличается от уровня загрязнения других городов.

2. Наблюдаемый уровень загрязнения превышает расчетные (прогнозные) уровни. Это предполагает неадекватность применяемой методики прогноза или недостоверность информации о выбросах БП в окружающую среду ( величина выбросов занижена).

. 3. Уровни загрязнения Первомайского р – она и п.Октябрьского районов одинаковы.

Задание к самостоятельной работе.

В соответствии с выданным преподавателем вариантом выполнить:

1. По таблице 1 приложения 1:

а) проверить утверждение: несчастным случаям на рассматриваемом предприятии одинаково предрасположены как мужчины, так и женщины;

б) найти доверительные интервалы для математического ожидания времени, прошедшего от последнего обучения безопасным приемам труда до несчастного случая;

в) проверить гипотезу о равенстве средних «Кол -во дней нетрудоспособности» для мужчин и женщин;

г) выполнить пункт г) следующего раздела ( 2 ).

2. По таблице 3 приложения 1:

а) проверить утверждение: доля восстановленных антрацитов (маловосстановленных, средневосстановленных в соответствии с вариантом таблицы 21) на невыбросоопасных и выбросоопасных пластах одинакова;

б) найти доверительные интервалы для математического ожидания для переменной Х (в соответствии с вариантом таблицы 21) опасных и не опасных по выбросам пластов;

в) проверить гипотезу о равенстве средних по переменной Х для невыбросоопасных и выбросоопасных пластов;

г) проверить гипотезу о равенстве средних по переменным Adaf ( зольность фракции <0,1мм) и Aп daf ( зольность фракции 0,1 – 0,16 мм) (в соответствии с вариантом таблицы 21).

Таблица 21

Вари-ант

Таблица 3 (прил. 1).

Задание а)

б)

в)

г)

Стро-ки

Столб-цы

Стро-ки

Столб

-цы

Стро-ки

Столб-цы

Строки

Столб-цы

1

2

3

4

5

6

7

8

9

1-46

1-46

1-46

1-46

1-46

1-46

1-46

1-46

1-46

11,в

11,а

11,б

11,в

11,а

11,б

11,в

11,а

11,б

1-46

1-46

1-46

1-46

1-46

1-46

1-46

1-46

1-46

2

3

4

5

6

7

8

9

10

1-46

1-46

1-46

1-46

1-46

1-46

1-46

1-46

1-46

2

3

4

5

6

7

8

9

10

1-9

10-18

19-23,42-46

24-32

33-41

1-5,10-14

24-28,33-37

14-23

37-46

3, 4

3, 4

3, 4

3, 4

3, 4

3, 4

3, 4

3, 4

3, 4

Практическая работа №4 Анализ статистических связей между количественными переменными Оценивание парных статистических связей

Цель: Научится выбирать с учетом специфики и природы анализируемых переменных адекватный измеритель связи; анализировать связь (степень тесноты, характер связи, тенденцию) между исследуемыми переменными многомерного количественного признака. Приобрести навыки:

- построения корреляционных полей;

- оценивания парных коэффициентов корреляции, корреляционного отношения, частных коэффициентов корреляции, рангового коэффициента корреляции Спирмэна;

- получения интервальных оценок для парного коэффициента корреляции;

- проверки гипотезы о статистической значимости парной линейной и нелинейной статистической связи;

- интерпретировать результаты корреляционного анализа в терминах решаемой задачи.

Содержание работы.

I. Проанализируем данные о несчастных случаях на производстве (таблица 1 приложения 1, первые 50 строк). На рис. 3 представлены диаграммы рассеяния (корреляционные поля) для пар компонентов ( X - « t от начала смены», Y- «Кол-во дней нетрудоспособности»), ( X - « t от обучения», Y- «Кол-во дней нетрудоспособности»), ( X - «стаж», Y- «Кол-во дней нетрудоспособности»), ( X - «возраст», Y- «Кол-во дней нетрудоспособности»). Судя по корреляционным полям между X и Y (б,в,г), можно предположить наличие линейной связи( (б) с положительной, (в,г) с отрицательной тенденцией). Не проводя предварительного анализа данных, допустим, что исследуемая многомерная зависимость имеет совместно нормальное распределение.

Оценим степень тесноты статистической связи между двумя исследуемыми компонентами с помощью выборочного коэффициента корреляции

(20)

Расчет парных коэффициентов корреляции для всех переменных, определенных в относительной и интервальной шкалах, представлен в таблицах 22 - 23.

a) б)

в) г)

Рис.3 Диаграммы рассеяния

Таблица 22 Ковариационная матрица

Возраст

Стаж

t от обучения

t от начала смены

Кол-во дней нетр.

Возраст

55,79*

42,74

71,83

0,07

-25,53

Стаж

42,74

39,90

62,40

-0,05

-21,33

t от обучения

71,83

62,40

1283,87

-13,73

60,47

t от начала смены

0,07

-0,05

-13,73

2,24

-0,31

Кол-во дней нетр.

-25,53

-21,33

60,47

-0,31

36,28

* - диагональ матрицы представлена величинами σ*2.

Таблица 23 Корреляционная матрица

Возраст

Стаж

t от обучения

t от начала смены

Кол-во дней нетр.

Возраст

1,00

0,91*

0,27

0,01

-0,57

Стаж

0,91

1,00

0,28

-0,01

-0,56

t от обучения

0,27

0,28

1,00

-0,26

0,28

t от начала смены

0,01

-0,01

-0,26

1,00

-0,03

Кол-во дней нетр.

-0,57

-0,56

0,28

-0,03

1,00

*- коэффициент рассчитан по формуле

Проверим гипотезы о значимости полученных коэффициентах корреляции. Рассмотрим пять шагов логической схемы статистического критерия. 1-й шаг. Формирование гипотезы об отсутствии статистической связи

H0: rXY = 0,

H1.: rXY 0.

2-й шаг. Задание уровня значимости α = 0,05. 3-й шаг. Выбор вида критической статистики

ψкр = . (21)

При n предельное распределение статистики ψкр имеет t-распределение Стьюдента с (n - 2) числом степеней свободы.

4-й шаг. Определение критических границ

ψкрв = tα/2.100% (n-2) = t2,5% (48) = 2,01, (22)

где tα/2.100% (n-2) – процентиль t-распределения Стьюдента уровня α /2.100%. 5-й шаг. Определение расчетного значения критической статистики (таблица 24)

В таблице выделенным шрифтом показаны значения, для которых не выполняется условие

ψрасч < ψкрв ,

следовательно, гипотеза Н0 об отсутствии статистической связи отвергается.

Таблица 24

Возраст

Стаж

t от обучения

t от начала смены

Кол-во дней нетр.

Возраст

15,20*

1.87

0,07

4.81

Стаж

15.20

2.02

0,07

4.68

t от обучения

1.87

2,02

1.86

2.02

t от начала смены

0,07

0,07

1,86

0.21

Кол-во дней нетр.

4,81

4,68

2,02

0,21

* - ψкр = = .

Другой способ проверки гипотезы о значимости коэффициента корреляции- построение доверительного интервала. Если интервал содержит 0, то принимается гипотеза об отсутствии статистической связи. Построим доверительные интервальные оценки для истинного значения коэффициента корреляции, основываясь на нормальной распределенности r*. Верхнюю и нижнюю границы интервала rв и rн можно вычислить из выражения

, (23)

где – квантиль нормального распределения. Однако использование последнего выражения возможно при многих ограничениях, выполнение которых не всегда возможно, а именно:

- r* должно быть близко к величине 1;

- n достаточно велико.

Избавиться от этих ограничений позволяет преобразование Р. Фишера

,

предложенное Р. Фишером. Он показал, что z в приведенном выражении даже при малых n достаточно близко к нормальному закону распределения. Это позволило

Р. Фишеру сконструировать доверительный интервал в виде

. (24)

Отсюда следует, что истинное значение коэффициента корреляции r с доверительной вероятностью (1 - ) заключено в пределах

th zн< r < th zв, (25)

где th z – гиперболический тангенс от аргумента z. Зная zн и zв, можно найти th zн и th zв, воспользовавшись таблицей преобразования Фишера.

В таблице 25 представлены доверительные интервалы для полученных раннее коэффициентов корреляции (таблица 23)

Таблица 25

Возраст

Стаж

t от обучения

t от начала смены

Кол-во дней нетр.

Возраст

] 0,89;0,93[*

]0,02;0,53[

]-0,27;0,29[

]-0,76;-0,39[

Стаж

]0,84;0,95[**

]0,03;0,54[

]-0,29;0,27[

]-0,75;-0,37[

t от обучения

]-0,02;0,50[

]-0,00;0,56[

]-0,52;-0,00[

]0,03;0,54[

t от начала смены

]-0,29;0,28[

]-0,28;0,29[

]-0,49;0,03[

]-0,31;0,25[

Кол-во дней нетр.

]-0,73;-0,35[

]-0,72;-0,34[

]-0,00;0,56[

]-0,30;0,25[

* - данный интервал (и все справа от диагонали матрицы) рассчитан по формуле

,

.

** - данный интервал (и все слева от диагонали матрицы) рассчитан по формуле

,

,

.

Зная zн и zв, находим thzн и thzв, воспользовавшись таблицей преобразования Фишера( таблица 8 приложения 2)

0,84 < r <0,95.

Выводы: На основании проведенных исследований можно сделать следующие выводы: тяжесть несчастных случаев на рассматриваемом предприятии уменьшается с увеличением возраста и стажа работы травмировавшихся. Увеличение времени после обучения безопасным приемам труда приводит к увеличению тяжести травм при несчастных случаях на производстве.

Рассчитаем коэффициент корреляции:

а) между переменными ( X - «стаж» (№1),Y- «Кол-во дней нетрудоспособности» (№2)) при фиксированных значениях переменной «возраст»(№3):

;

б) между переменными ( X - «возраст» (№1),Y- «Кол-во дней нетрудоспособности» (№2)) при фиксированных значениях переменной «стаж» (№3):

;

в) между переменными( X - « t от обучения» (№1),Y- «Кол-во дней нетрудоспособности» (№2)) при фиксированных значениях переменной «стаж» (№3):

;

в) между переменными( X - « t от обучения» (№1),Y- «Кол-во дней нетрудоспособности» (№2)) при фиксированных значениях переменной «возраст»(№3) :

;

д) между переменными( X - « t от обучения» (№1),Y- «Кол-во дней нетрудоспособности» (№2)) при фиксированных значениях переменных «стаж» (№3), «возраст»(№4):

.

Выводы: Исключения опосредованного влияния переменных «стаж» и «возраст» на связь между переменными X - « t от обучения» ,Y- «Кол-во дней нетрудоспособности» свидетельствует о наличии более тесной связи между этими факторами. Тяжесть травматизма существенно зависит от качества знаний безопасных приемов труда.

I I. Рассмотрим задачу.

В течение года на стационарном посту наблюдения за состоянием воздушной среды периодически отбирались пробы воздуха, по которым оценивались уровни загрязнения бенз(а)пиреном. Исследуем изменение концентрации БП во времени. В таблице 26 представлены результаты измерений. В таблице 27 даты преобразованы в переменную «День от начала года». Ряд последовательно расположенных в хронологическом порядке статистических показателей, отражающих изменение какого-либо явления во времени, называется рядом динамики. Построение корреляционного поля (ряда динамики) (рис. 4) может свидетельствовать о наличии нелинейной зависимости концентрации БП от времени.

Воспользуемся корреляционным отношением как измерителем связи между исследуемыми переменными. Корреляционное отношение применимо, когда характер выборочных данных (количество, плотность расположения на диаграмме рассеяния) допускает, во-первых, их группирование по оси предикторной переменной, во-вторых, возможность подсчета “частных” математических ожиданий внутри каждого интервала группирования.

Используем методику вычисления корреляционного отношения.

1. Разобьем диаграмму рассеяния по предикторной переменной Х на L непересекающихся интервалов группирования. Возьмем в качестве интервала разбиения величину 100 дней, что соответствует примерно поквартальному разбиению года (L = 4). Найдем “частные” математические ожидания отклика Y в каждой из L выделенных групп

, (26)

где j = 1,4 , i =1, nj , nj – количество элементов выборки в j-ом интервале группирования.

Таблица 26

Дата

КБП,

мг/ м3

Дата

КБП,

мг/ м3

Дата

КБП,

мг/ м3

05.Янв

09.Янв

16.Янв

22.Янв

08.Фев

14.Фев

04.Мар

15.Мар

25.Мар

07.Апр

13.Апр

19.Апр

1,50

1,15

1,4

1,35

1,05

1

1,35

1,25

1,1

1,05

0,95

1

24.Апр

30.Апр

10.Май

15.Май

21.Май

27.Май

04.Июн

11.Июн

19.Июн

27.Июн

03.Июл

16.Июл

0,9

0,95

1,1

0,8

0,65

0,85

0,7

0,75

0,65

0,8

0,6

0,55

23.Июл05.Авг

16.Авг

05.Сен

24.Сен

10.Окт

26.Окт

08.Ноя

18.Ноя

29.Ноя

06.Дек

18.Дек

0,75

0,55

0,75

0,8

0,95

1,1

1,6

1,7

1,2

1,55

1,4

1,2

Таблица 27

День от начала года

КБП,

мг/ м3

Дата

КБП,

мг/ м3

Дата

КБП,

мг/ м3

5

9

16

22

39

45

63

74

84

97

103

109

1,50

1,15

1,4

1,35

1,05

1

1,35

1,25

1,1

1,05

0,95

1

114

120

130

135

141

147

155

162

170

178

184

197

0,9

0,95

1,1

0,8

0,65

0,85

0,7

0,75

0,65

0,8

0,6

0,55

204

217

228

248

267

283

299

312

322

333

340

352

0,75

0,55

0,75

0,8

0,95

1,1

1,6

1,7

1,2

1,55

1,4

1,2

Рис. 4 Ряд динамики

2.Найдем математическое ожидание по группированному отклику, используя “частные”

. (27)

3. Получим групповую дисперсию выходной переменной Y (объясненная моделью дисперсия)

, (28)

и дисперсию, полученную по негруппированному отклику

. (29)

Расчеты по приведенным формулам приведены в таблице 28.

Таблица 28

Интервал

nj

=0,057

=0,092

1

2

3

4

10

14

7

5

1,22

0,80

0,93

1,45

= 1,03

4. Корреляционное отношение зависимой переменной Y по независимой (предикторной) переменной Х может быть получено из отношения

. (30)

Для характеристики силы связи по значениям R используется шкала Чеддока :

Значение R*

0,1-0,3

0,3-0,5

0,5-0,7

0,7-0,9

0,9-0,99

Сила связи

слабая

умеренная

заметная

высокая

весьма высокая

При значениях R ниже 0.7 величина коэффициента детерминации R2 всегда будет меньше 50%, т.е. менее половины общей дисперсии признака Y определяется дисперсией функции регрессии. Такие модели связи не имеют практического значения. При значениях R выше 0.9 сила связи является весьма высокой и ее модель можно использовать на практике. В нашем случае при R*=0.79 сила связи –высокая.

Выводы: В исследованном периоде времени концентрация БП изменяется. Зависимость концентрации от времени носит нелинейный характер. Наибольшие уровни загрязнения имеют место в зимний период. Летом степень загрязнения воздуха существенно снижается.

I I I. Использование коэффициента корреляции оправдано лишь в том случае, если линейная связь исследуется между переменными, имеющими нормальное распределение. Ранговые аналоги коэффициентов корреляции не зависят от распределения переменных и отличаются простотой вычислений, хотя также нацелены на обнаружение линейной связи.

Ранговый коэффициент корреляции Спирмэна можно рассчитывать для количественных и порядковых переменных. Возможна ситуация когда одна переменная может быть порядковой, другая – количественной.

Исследуем зависимость между переменными X - « t от обучения» и Y- «Кол-во дней нетрудоспособности». В качестве выборки используем 15 значений указанных признаков, приведенных в таблице 1 прил .1 (строки 5-20). Диаграмма представлена на рис. 5.

Рис. 5

1. Представим выборки по переменным X (xi, i=1,n) и Y (yi, i=1,n) в виде вариационных рядов

х1 ≤ х2 ≤ …≤ хj ≤ … ≤ хn, y1y2 ≤ …≤ yj ≤ … ≤ yn.

2. Для каждого парного наблюдения хi и yi найдем их ранги в вариационных рядах и вычислим разности этих рангов (таблица 29)

Δi = Ri) - R(yi).

3. Расчет коэффициента корреляции по формуле

, (31)

невозможен, поскольку в ранжировках групп присутствуют объединенные ранги.

Воспользуемся выражением

, (32)

Таблица 29

t от обучения

дней , хi

R(xi)

Кол-во дней нетр, yi

R(yi)

Δi

98

3

4

2

1

102

4

5

3

1

142

9

16

9

0

160

13

21

10

3

157

12

12

7

5

110

5

11

6

-1

120

6

3

1

5

147

11

11

6

5

124

7

8

5

2

66

1

6

4

-3

88

2

6

4

-2

125

8

26

11

-3

176

15

12

7

8

145

10

6

4

4

163

14

6

4

10

160

13

13

8

5

где TX и TY могут быть найдены из

, (33)

где - количество элементов в группе неразличимых рангов, аК(Х) – число групп неразличимых рангов.

Для ранжировки R(xi), K=1, n1=2.

Для ранжировки R(yi), K=3, n1=4, n2=2, n3=2. Проведем вычисления

,

,

.

Таким образом, зависимость между переменными X - « t от обучения» и Y- «Кол-во дней нетрудоспособности» существует.

Проверим гипотезу о значимости полученного коэффициента корреляции. Рассмотрим пять шагов логической схемы статистического критерия. 1-й шаг. Формирование гипотезы об отсутствии статистической связи

H0: rSXY = 0,

H1.: rSXY 0.

2-й шаг. Задание уровня значимости = 0,05. 3-й шаг. Выбор вида критической статистики (n =16 > 10)

ψкр = . (34)

При n предельное распределение статистики ψкр имеет t-распределение Стьюдента с (n - 2) числом степеней свободы.

4-й шаг. Определение критических границ

ψкрв = tα/2.100% (n-2) = t2,5% (14) = 2,14,

ψкр н = - ψкр в ,

где tα/2.100% (n-2) – процентиль t-распределения Стьюдента уровня α /2.100%. 5-й шаг. Определение расчетного значения критической статистики

ψкр =

Условие

ψрасч < ψкрв , 2,3 < 2,14.

не выполняется ,следовательно, гипотеза Н0 об отсутствии статистической связи отвергается.

Задание к самостоятельной работе.

В таблице 4 приложения 1 представлены данные для анализа травматизма в отрасли. По десяти предприятиям одного профиля рассчитаны показатели:

X1 - затраты на безопасность ( руб./ на 1 работающего);

X2 - уровень подготовки работающих по безопасности ( средний балл по предприятию по стобалльной шкале);

X3 - коэффициент частоты травматизма (количество несчастных случаев (травм) в год на 1000 работающих).

Для варианта, выданного преподавателем, выполнить:

а) построить диаграммы рассеяния (X1,X2), (X1,X3), (X2,X3);

б) рассчитать корреляционную матрицу;

в) проверить гипотезу о значимости коэффициента корреляции между переменными X3 и X1;

г) рассчитать частный коэффициент корреляции между переменными X3 и X1 при фиксированных значениях переменной X2;

д) рассчитать корреляционное отношение как измеритель связи между переменными X3 и X1;

е) рассчитать ранговый коэффициент корреляции между переменными X3 и X1 и проверить гипотезу о его значимости;