Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

task_74895

.pdf
Скачиваний:
455
Добавлен:
22.03.2016
Размер:
5.67 Mб
Скачать

50 ГЛАВА 2. ПРОВЕРКА СООТВЕТСТВИЯ ВЫБОРКИ

Проведём проверку близости эмпирического распределения к нор- мальному по критерию Романовского. Вычислим, согласно (32), величину

c2 -k

. Так как χ2 = χ02 =18,12 , k = 7, то

c2 -k

=

 

18,12-7

 

 

 

 

 

 

 

 

 

 

 

 

2k

 

 

2k

 

 

14

 

 

 

 

 

 

 

 

 

 

 

 

 

= 2,97 < 3, т.е.

расхождение между эмпирическим и теоретическим распределением не- существенно, что позволяет утверждать, что данные выборки, характери- зующие обводненность нефти из насосных скважин по критерию Романов- ского подчиняются нормальному закону распределения. К такому же вы- воду мы приходим, применяя критерий Колмогорова (проверить самостоя- тельно).

Наконец, проведём проверку близости рассматриваемой выборки к нормальному распределению по приближенному критерию, используя вы- борочные статистики: асимметрию, эксцесс и их средние квадратические отклонения. В лабораторной работе № 1 были найдены As = 0,328,

Ex = −0,115 . Средние квадратические отклонения для асимметрии и экс- цесса находим по формулам (39) и (40):

 

 

 

 

 

 

 

 

 

 

 

 

6(n-1)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

SA

 

=

 

 

 

 

=

 

6×99

= 0,24,

 

 

 

 

 

 

 

 

(n+1)(n+3)

101×103

 

 

 

 

 

s

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

24n(n-2)(n-3)

 

 

 

 

 

 

 

 

 

SE

 

=

 

 

=

24×100×98×97

= 0,46 .

 

 

x

 

(n-1)

2

(n+3)(n+5)

99

2

×103×105

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Так как

 

As

 

= 0,328 > SA

и

 

Ex

 

= 0,115 < SE

 

, то делаем вывод, что

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

s

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

данные выборки, характеризующие обводненность нефти из насосных скважин, не подчиняются нормальному закону распределения.

Итак, для проверки согласованности эмпирического распределения с теоретическим нормальным мы применили 4 критерия, два из них под- твердили близость выборочной совокупности к нормальному распределе- нию. Однако, учитывая, что критерий Колмогорова является более мощ- ным, чем критерий χ2 Пирсона, и подтверждает близость рассматриваемой выборки к нормальному распределению, окончательно заключаем, что за закон распределения признака Х обводненности нефти из насосных скважин можно принять нормальное распределение.

З а м е ч а н и е. В качестве вариантов заданий для выполнения лабо- раторной работы № 2 следует брать дискретные вариационные ряды из ла- бораторной работы № 1, а так же значения статистик x , S , As , Ex .

ГЛАВА 3

ПАРНАЯ ЛИНЕЙНАЯ КОРРЕЛЯЦИЯ

§ 9. Понятие корреляционной зависимости. Задачи теории корреляции

В новых условиях хозяйственной деятельности предприятий возрас- тает роль экономико-математических методов для управления производст- вом. Управление производством это сложный динамический процесс. Поэтому при выработке оптимального решения по управлению производ- ственно-хозяйственной деятельностью предприятия необходимо не только учитывать изменения параметров и характеристик, описывающих эту дея- тельность, но и уметь их прогнозировать, основываясь на экономических законах, которые наиболее полно отражают взаимосвязи основных показа- телей предприятия и его подразделений. Математическая формализация этих связей создает условия для экономического обоснования целесооб- разных объемов производимой продукции, определения ее качественных показателей и условий эффективного использования ресурсов.

Для решения этих задач применяют методы корреляционного анали- за. При анализе зависимостей между производственными показателями методами корреляционного анализа выделяют два основных типа пере- менных количественных признаков: независимые переменные (факторные признаки) и зависимые переменные (результативные признаки).

52 ГЛАВА 3. ПАРНАЯ ЛИНЕЙНАЯ КОРРЕЛЯЦИЯ

При изучении взаимосвязей между переменными признаками надо, прежде всего, установить, к какому типу зависимостей относится эта связь.

Зависимость между признаками X и Y называется корреляционной, если каждому возможному значению xi признака X сопоставляется ус-

ловная средняя соответствующего распределения признака Y .

Среднее арифметическое значение признака Y , вычисленное при ус- ловии, что признак X принимает фиксированное значение xi , называется

условным средним, обозначается через yxi

и вычисляется по формуле:

 

yx

=

å nij y j

,

(42)

n

i

 

xi

 

 

где nij частоты, показывающие сколько раз повторяются парные значе- ния xi , y j в данной выборке, nxi частота появления значения хi.

Теория корреляции изучает такую зависимость между признаками X и Y , при которой с изменением одного признака меняется распределе- ние другого. Она применяется для того, чтобы при сложном взаимодейст- вии посторонних факторов выяснить, какова должна быть зависимость между признаками X и Y , если бы посторонние факторы не изменялись и своим изменением не искажали истинную статистическую зависимость [4].

В теории корреляции решается триединая задача, методологической основой которой является триада:

Модель Свойства Адекватность.

Первая задача поиск подходящей модели. На основе опытных данных выявляется характер корреляционной зависимости между призна- ками X и Y . При парной корреляции для ее решения применяют графиче- ский метод. Если в корреляционном поле точки (xi , y j ) хорошо ложатся

на прямую, то можно предположить, что связь между признаками X и Y носит линейный характер. Если точки не ложатся на прямую, то связь бу- дет нелинейной. Исходя из геометрических соображений, выбирают урав- нение линии, которое называют уравнением регрессии, и находят неиз- вестные параметры, входящие в уравнение.

Вторая задача изучение свойств модели. Определяется теснота связи между признаками, включенными в модель, по коэффициенту r кор- реляции (в случае линейной корреляции) или по корреляционным отноше- ниям ηyx, ηxy (в случае криволинейной корреляции).

Третья задача выявление степени адекватности построенной кор- реляционной модели (проверяется соответствие полученного уравнения регрессии опытным данным). Если данная модель оказалась не адекватной, то всё начинается сначала строят новую модель.

§ 10. Парная линейная корреляция

Предположим, что на основе геометрических, физических или дру- гих соображений установлено, что между двумя количественными призна- ками X и Y существует линейная корреляционная зависимость. Тогда уравнение регрессии записывают в виде:

ˆ

+ a1 x .

(43)

yx = a0

Пусть опытные данные не сгруппированы в корреляционную табли- цу, т. е. заданы в виде табл. 18.

Т а б л и ц а 1 8

xi

x1

x2

x3

xk

yi

y1

y2

y3

yk

В этом случае значения а0, а1, являющиеся оценками истинных вели- чин уравнения регрессии, находят по методу наименьших квадратов [4], решая систему линейных алгебраических уравнений (СЛАУ) относительно

а0, а1:

k

k

где [x] = åxi , [y] = å yi

i=1

i=1

ì na0 + [x]a1 = [y],

(44)

í[x]a

0

+ [x2

]a = [xy],

î

 

1

 

 

 

k

k

 

, [x2 ] = åxi2

, [xy] = åxi yi .

 

 

 

i=1

i=1

 

54

Глава 3. ПАРНАЯ ЛИНЕЙНАЯ КОРРЕЛЯЦИЯ

Для нахождения сумм, входящих в систему (44), составляется табл.

19.

 

 

 

Т а б л и ц а 1 9

xi

yi

xi yi

x2

 

 

 

i

 

 

 

 

[x]

[y]

[xy]

[x2]

Если опытные данные сгруппированы в корреляционную таблицу, то значения a0 и a1 уравнения регрессии (43) находят по методу наименьших

квадратов, решая СЛАУ

 

 

 

 

 

 

 

 

 

 

 

ì

 

na

0

+ [n

x

x]a = [n

y

y],

 

ï

 

 

 

 

1

 

 

(45)

í

 

x]a

 

+ [n

 

x2 ]a = [n

 

 

xy],

ï[n

x

0

x

xy

 

î

 

 

 

1

 

 

где nx и ny частоты признаков X и Y , nxy частота совместного по-

явления признаков X

и Y . Для нахождения сумм, входящих в систему

(45), составляется табл. 20.

 

 

 

 

 

Т а б л и ц а 2 0

 

 

 

 

 

 

 

 

 

 

 

x

x

 

x

2

 

x

k

ny

ny y

 

 

y

 

 

 

 

1

 

 

 

 

 

 

 

 

 

y1

 

 

 

 

 

 

 

 

 

 

 

y2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ym

 

 

 

 

 

 

 

 

 

 

 

nx

 

 

 

 

 

 

 

 

[ny y]

 

 

nx x

 

 

 

 

 

 

 

[nx x]

 

 

 

nx x2

 

 

 

 

 

 

 

[nx x2 ]

 

 

 

nxy xy

 

 

 

 

 

 

 

[nxy xy]

 

 

Суммы [nx x],

[nx x2 ],

[nxy xy]

в табл. 20

находятся по строкам, а сумма

[ny y] — по последнему столбцу табл. 20.

В уравнении регрессии (43) параметр a0 характеризует усредненное

влияние на результативный признак Y неучтенных (не выявленных для исследования) факторных признаков Xi . Параметр a1 показывает, на

сколько изменяется в среднем значение результативного признака Y при увеличении факторного признака на единицу.

Используя параметр a1 , вычисляют [9] коэффициент эластичности Kэ по формуле:

K

 

= a

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

э

1

 

y .

(46)

§ 10. Парная линейная корреляция

55

Коэффициент эластичности Kэ показывает, на сколько процентов

изменяется результативный признак Y при изменении факторного призна- ка X на 1 %.

В случае линейной корреляционной зависимости между признаками X и Y , уравнения регрессий находят [4] по формулам:

 

 

 

 

 

 

yˆx

= y + r

 

 

S y

 

(x − x) ,

 

 

 

(47)

 

 

 

 

 

 

 

 

Sx

 

 

 

 

 

 

 

 

 

 

 

xˆy

= x + r

 

 

Sx

 

(y − y) ,

 

 

 

(48)

 

 

 

 

 

 

 

 

S y

 

 

 

 

 

где x , y выборочные средние признаков

 

X

и Y ; Sx , S y

выбороч-

ные средние квадратические отклонения признаков X

и Y , вычисляемые

по формулам:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆ 2

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

ˆ

 

 

 

 

 

 

 

 

 

1

å(xi x)

2

 

 

 

 

 

ˆ 2

 

 

 

 

 

 

 

 

 

, где

= n−1

 

 

(n < 50) ,

(49)

Sx =

 

Sx

Sx

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

ˆ

 

 

 

 

ˆ 2

 

 

 

 

 

ˆ 2

 

 

 

1

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S y =

 

S y

, где S y

=

n−1

 

å(yi y)

 

(n

< 50) .

(50)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

При n ³ 50 S x

и S y

находят по формулам:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S x2 , где S x2

 

 

 

 

 

 

 

 

 

 

S x

=

 

 

= 1n å(xi x)2 ,

 

(51)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S y

=

 

 

S y2 , где S y2

 

= 1n å(yi y)2 .

 

(52)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

Коэффициент линейной корреляции r находят по формуле:

 

 

 

 

 

 

 

 

 

 

 

 

r =

 

-

 

×

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xy

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

y

,

 

 

 

 

 

(53)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Sx ×Sy

 

 

 

 

 

где xy средняя произведения значений признаков

X и Y , x , y

средние значения признаков X и Y , Sx , S y

выборочные средние квад-

ратические отклонения признаков X и Y , вычисленные по формулам (49) и (50), если n < 50 , или по формулам (51) и (52), если n ³ 50 .

Уравнение (47) называют уравнением регрессии y на x , а уравнение

(48) — уравнением регрессии x на y .

56

Глава 3. ПАРНАЯ ЛИНЕЙНАЯ КОРРЕЛЯЦИЯ

Если данные выборки для признаков X и Y заданы в виде корреля- ционной таблицы и объем выборки n > 30 , то для нахождения величин, входящих в уравнения линий регрессий (47) и (48), переходят к вспомога- тельному распределению с условными вариантами ui и v j , вычисляемых

по формулам:

ui =

x C

 

 

 

 

i 1

,

(54)

h1

 

y

C

2

 

 

v j =

 

j

,

(55)

 

h2

 

где C1 = M0 X , C2 = M 0Y , h1 и h2 шаги значений признаков X и Y . Выборочный коэффициент линейной корреляции r в этом случае

находят по формуле

 

 

 

 

 

 

r =

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

å nuv uv-nu

v

,

 

 

 

 

 

 

 

 

 

 

 

 

(56)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

nSu Sv

 

 

 

 

 

 

 

 

 

 

 

 

где

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Su

=

 

 

 

 

 

 

 

 

2 , Sv

=

 

 

 

2 .

 

 

 

 

(57)

 

 

 

 

 

 

 

 

u2

u

v2

v

 

 

 

 

Для нахождения суммы ånuv uv составляется расчетная табл. 21.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Т а б л и ц а 2 1

 

u

 

v

 

 

v1

 

 

 

 

 

 

 

 

 

 

v2

 

 

 

 

 

 

 

 

 

 

vk

 

nu

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

u

 

 

 

u1v1

 

 

 

 

 

 

 

 

 

 

u1v2

 

 

 

 

 

 

 

 

 

 

 

u1vk

 

nu

 

 

 

 

 

 

 

 

 

nu v

 

 

 

 

 

 

 

nu v

 

 

 

 

 

 

1

 

 

nu v

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

k

 

 

1

 

 

 

 

 

1 1

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

u

2

 

 

 

u2v1

 

 

 

 

 

 

 

 

 

 

u2v2

 

 

 

 

 

 

 

 

 

 

 

u2vk

 

nu

 

 

 

 

 

nu v

 

 

 

nu

v

 

 

 

 

 

 

 

 

 

 

 

 

 

nu

v

 

 

2

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

k

 

 

 

 

 

 

 

2

1

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

un

 

 

 

unv1

 

 

 

 

 

 

 

 

 

 

unv2

 

 

 

 

 

 

 

 

 

 

 

unvk

 

nun

 

 

 

 

nu v

 

 

 

nu

v

2

 

 

 

 

 

 

 

 

 

 

 

 

nu

v

k

 

 

 

 

 

 

 

n

1

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

nv

 

 

 

nv1

 

 

 

 

 

 

 

 

nv2

 

 

 

 

 

 

 

 

 

nvk

 

ånuvuv

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Статистики x ,

 

y , Sx , S y находят по формулам:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x =

uh1 + C1,

 

=

 

h2 + C2 , Sx = Suh1 , Sy = Svh2 .

 

(58)

 

 

 

y

v

 

§ 11. Коэффициент корреляции, его свойства и значимость

После выбора функции как формы корреляционной зависимости ме- жду признаками X и Y решается задача, состоящая в определении тесно- ты связи между ними, в оценке рассеяния относительно линии регрессии

y y

r > 0 r < 0

0

x

0

x

 

Рис. 6.

 

Рис. 7.

58

Глава 3. ПАРНАЯ ЛИНЕЙНАЯ КОРРЕЛЯЦИЯ

значений одного признака для различных значений другого. Для этого ис- пользуют выборочный коэффициент r корреляции, который вычисляют по формуле (53). Линейный коэффициент корреляции изменяется на отрезке [–1; 1], т.е. | r | 1. Если r = ±1, то корреляционная зависимость становится функциональной. В случае r > 0 говорят о положительной корреляции ве- личин X, Y (рис. 6); например, вес и рост человека связаны положительной корреляцией; в случае r < 0 — об отрицательной корреляции (рис. 7). По- ложительная корреляция между случайными величинами означает, что при возрастании одной из них другая имеет тенденцию в среднем возрастать; отрицательная корреляция означает, что при возрастании одной из случай- ных величин другая имеет тенденцию в среднем убывать.

Если r = 0 , то линейная связь между признаками Х и Y отсутствует, но может существовать криволинейная корреляционная связь или нели- нейная функциональная.

Оценку тесноты линейной корреляционной связи определяют [4], пользуясь табл. 22.

 

 

Т а б л и ц а 2 2

Теснота связи

Величина r

Положительная

Отрицательная

 

Линейной связи нет

0 ÷ 0,2

0 ÷ −0,2

 

 

 

Слабая

0,2 ÷ 0,5

0,2 ÷ −0,5

 

 

 

Средняя

0,5 ÷ 0,75

0,5 ÷ −0,75

 

 

 

Сильная

0,75 ÷ 0,95

0,75 ÷ −0,95

 

 

 

Функциональная

0,95 ÷1

0,95 ÷ −1

 

 

 

Значимость выборочного коэффициента корреляции проверяют по критерию Стьюдента. По опытным данным вычисляют расчетную стати- стику tp , пользуясь формулой:

tp =

 

r

 

n2

 

.

(59)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1r

2

 

 

 

 

 

 

 

 

 

Затем по таблице критических точек распределения Стьюдента (при- ложение 6) по заданному уровню значимости α и числу степеней свободы k = n 2 находят табличное значение tкр двусторонней критической об-

ласти. Если tp < tкр , то коэффициент корреляции r незначимый (мало отличается от нуля) и признаки X и Y некоррелированы. Если tp > tкр , то приходят к выводу о наличии линейной корреляционной связи [4].

§ 12. Определение надежности (доверительного интервала) коэффициента корреляции

Коэффициент корреляции, как правило, рассчитывается по данным выборки. Чтобы полученный результат распространить на генеральную совокупность, возможно возникновение некоторой ошибки, которую оце- нивают с помощью средней квадратичной ошибки σr . С помощью σr

производят оценку надежности коэффициента корреляции, построив дове- рительные интервалы для различных объемов выборки [2]. Пусть число n наблюдений пар чисел (x; y) меньше 50 (n < 50). В этом случае средняя

квадратическая ошибка σr вычисляется по формуле

σr =

1

r 2

 

,

(60)

 

 

 

n2

 

 

 

 

 

где r коэффициент парной линейной корреляции, n объем выборки. Доверительный интервал для оценки r находят по формуле

ˆ

r + tγ σ r ,

(61)

r tγ σ r r

где tγ находят по таблице значений функции Лапласа Φ(x)

(приложение

2). Если задать надежность γ = 0,95, то Φ(x) = 2γ = 0,475 и tγ =1,96 .

Если объем выборки n > 50 , то погрешность σr для коэффициента

корреляции r находят также по формуле (60). Затем вычисляют отноше- ние r / σr . Если это отношение больше 3, то можно считать, что найденный

коэффициент корреляции r отражает истинную зависимость между при- знаками X и Y . Величина r 3σr является, как правило, гарантийным

минимумом, а величина r + 3σr гарантийным максимумом коэффици-

ента корреляции r и доверительный интервал для оценки r

запишется в

виде

 

 

ˆ

r + 3σ r .

(62)

r 3σ r r

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]