Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

лекции(II курс)

.pdf
Скачиваний:
20
Добавлен:
16.03.2016
Размер:
742.74 Кб
Скачать

Такой интервал называется доверительным, а вероятность γ доверительной вероятностью или надежностью.

γ = P (

Θ

Θ

)

 

Φ

 

,

|

 

e

| ≤

(

 

σ

)

 

где предельная ошибка выборка (ошибка репрезентативности); σ среднее квадра-

тическое отклонение выборки.

Величина доверительного интервала существенно зависит от объема выборки n (уменьшается с ростом n) и от значения доверительной вероятности γ (увеличивается с приближением γ ê 1).

Среднее квадратическое отклонение σ находится по одной из формул таблицы 1.

Таблица 1

 

âèä

 

 

 

Повторная

 

 

 

 

 

 

 

 

Безповторная

 

öåëü

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

äëÿ äîëè

 

 

 

 

 

 

pq

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

для средней

 

 

 

 

σ

x

=

 

2

 

 

 

 

 

 

 

 

σ

=

2

(1

 

n

)

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

x

 

n

 

 

N

 

n объем

выборки; N

объем

 

 

 

 

 

 

 

 

 

 

совокупности.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

!(1 !)

 

 

 

 

 

 

!(1

 

!)

 

 

 

 

 

 

 

 

 

 

 

σ! =

 

 

 

n

 

n

 

σ!

=

 

n

 

(1

N

)

генеральной

Если обозначить аргумент функции Лапласса = t, то предельная ошибка выборки

будет иметь вид:

= t · σ.

Зная можно определить доверительный интервал для средней и для генеральной

äîëè:

xB − ≤ x ≤ xB + , ωB − ≤ ω ≤ ωB + .

Это промежуток, в который с вероятностью p попадает значение характеристики ге-

неральной совокупности.

Необходимый объем выборки можно найти по одной из формул таблицы 2., в зависимости от цели и способа образования выборки.

Таблица 2

âèä

Повторная

Безповторная

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

öåëü

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t2

 

 

2

 

 

 

 

 

 

N

t 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

для средней

n

 

=

 

·

 

 

n

x

 

=

 

 

2·

 

 

 

 

x

 

2

 

2

2

 

 

 

 

 

 

 

2

 

 

 

 

 

 

t

+2

N

äëÿ äîëè

n! =

t !(1−!)

n!

=

 

 

Nt !

 

 

 

2

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

t !+N

 

 

Если найден объем повторной выборки n, то объем соответствующей бесповторной выборки nможно определить по формуле:

n= n · N . n + N

Ò.ê. N/(n + N) < 1, то при одних и тех же точности и надежности оценок объем бесповторной выборки nвсегда меньше объема повторной выборки n. Этим и объясняется тот факт, что на практике в основном используется бесповторная выборка.

71

2.5. Основные задачи математической статистики и схемы их решения.

I) Äàíî: Вариационный ряд случайной величины X, объем n, вероятность p. Найти: предельную ошибку выборки . Доверительные интервалы: (x − ; x + ) è

(ω − ; ω + ).

Решение:

1)P ≈ Φ(t) из таблицы функции Лапласса находим t.

2)σ находим по таблице 1.

3)çíàÿ t è σ находим = t · σ.

4)находим доверительные интервалы (x − ; x + ) è (ω − ; ω + ).

II) Äàíî: Вариационный ряд случайной величины X, объем n, предельная ошибка выборки .

Найти: Доверительную вероятность P .

Ðåøåíèå:

1)σ находим по таблице 1.

2)t = /σ.

3)из таблицы значений функции Лапласса находим Φ(t) ≈ P.

III) Äàíî: Предельная ошибка выборки , доверительная вероятность P .

Найти: Объем n. Решение:

1)По данному значению P = Φ(t) из таблицы значений функции Лапласса находим t.

2)По одной из формул таблицы 2 находим n.

Пример. Результаты обследования 50 человек из группы мигрирующего населения по их возрасту приведены в таблице:

возраст, лет.

äî 30

30 - 40

40 - 50

50 - 60

свыше 60

Итого:

кол-во мигрантов

9

8

15

8

10

50

1)Найти границы, в которых с вероятностью 0,9545 заключен средний возраст всего мигрирующего населения, если объем генеральной совокупности велик по сравнению с объемом выборочной совокупности (т.е. выборка повторная).

2)Каким должен быть объем выборочной совокупности, чтобы те же границы гарантировать с вероятностью 0,9949.

3)Найти вероятность того, что доля мигрантов до 40 лет в выборке отличается от доли их во всей генеральной совокупности не более чåм на 0,05 по абсолютной величине.

Решение. Найдем числовые характеристики x è σ, предварительно замкнув непрерывный вариационный ряд и положив c = 45 è k = 10. Составим вспомогательную таблицу:

xi

ni

xi − c

xi−c

xi−c

ni

(

xi−c

2

ni

k

k

k

)

25

9

-20

-2

-18

 

36

 

35

8

-10

-1

-8

 

 

8

 

 

 

 

 

 

 

 

 

 

45

15

0

0

0

 

 

0

 

 

 

 

 

 

 

 

 

 

55

8

10

1

8

 

 

8

 

 

 

 

 

 

 

 

 

 

10

20

2

20

 

40

 

∑65

50

-

-

2

 

 

92

 

x = 502 · 10 + 45 = 45, 4; σ2 = 9250 · 100 (45, 4 45)2 = 183, 84;

1)Ò.ê. P = 0, 9545 Φ(t) = 0, 9545, значит t = 2.

 

 

σ2

183, 84

1, 9.

σ

x =

 

=

 

 

n

50

 

72

Значит = 2 · 1, 9 = 3, 83.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таким образом

x

(45, 4 3, 83; 45, 4 + 3, 83)

 

x

(41, 57; 49, 23).

2) Найдем объем n.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Имеем, = 3, 83,

P = 0, 9949 = Φ(t), значит t = 2, 8.

 

По формуле находим объем:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

=

t2 · σ2

 

= 96, 6525,

 

 

 

 

 

 

 

 

 

 

 

x

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Т.е. объем должен быть равен 97 человек.

 

 

 

 

 

 

3) Найдем вероятность P , ò.å.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

P (B − ω | ≤ 0, 05)?

 

 

9 + 8

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Найдем ωB =

 

 

= 0, 34.

 

 

 

 

 

 

 

 

 

 

 

 

 

50

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

ω(1 − ω)

=

 

 

0, 34 · 0, 66

= 0, 07.

 

 

 

 

 

 

σ

 

 

 

 

 

 

 

 

 

 

B

 

 

n

50

 

 

 

Ïðè ýòîì = 0, 05. Значит t = 0, 05/0, 07 = 0, 71. По таблице значений функции Лапласса находим вероятность

P = Φ(t) = Φ(0, 71) = 0, 5223.

73

óðîâ-

Тема 3. Проверка статистических гипотез. 3.1. Принцип практической уверенности.

Прежде чем перейти к рассмотрению понятия статистическая гипотеза, сформулируем так называемый принцип практической уверенности, лежащий в основе применения выводов и рекомендаций с помощью теории вероятностей и математической статистики:

Если в определенных условиях вероятность события A очень мала, то при однократном выполнении их можно быть уверенным в том, что это событие A не произойдет, и

âпрактической деятельности поступать так, как будто оно является невозможным.

Таким образом, если P (A) 0, событие A является практически невозможным, то

вероятность P (A) 1, и событие A является практически достоверным.

Следовательно, мы можем говорить или о практически невозможных событиях и о степени малости их вероятностей, или о событиях, практически достоверных, и о степени близости их вероятностей к единице.

Вероятность, которой решено пренебрегать в данном исследовании, называется

нем значимости.

Обычно рекомендуется пользоваться уровнем значимости 0,05 при предварительных исследованиях и 0,001 при окончательных выводах.

Следовательно, P (A) 0, 95 практически достоверное событие, P (A) 0, 05 практически невозможное событие.

3.2. Статистическая гипотеза и общая схема ее проверки.

Т.к. характеристики одной и той же генеральной совокупности неодинаковы, то их можно считать случайными величинами. Полностью случайная величина задается законом распределения. Одной из важнейших задач математической статистики является задача установления теоретического закона распределения случайной величины по дан-

ным опытных наблюдений, представленных в виде вариационного ряда.

Для решения этой задачи необходимо определить âèä è параметры закона распределения.

1)Предположение о виде закона распределения можно сделать на основании:графического изображения вариационного ряда (полигон или гистограмма).из опята аналогичных исследований.

на основании теоретических предпосылок.

2)Параметры распределения определяются как характеристики вариационного ряда:

a = x; σ = σB2 .

Как бы хорошо не был подобран теоретический закон распределения между эмпириче- ским вариационным рядом и теоретическим неизбежны расхождения. Возникает вопрос: эти расхождения случайны и связаны с ограниченным числом объектов выборки или они существенны и связаны с тем, что неправильно подобран теоретический закон распределения. Для ответа на этот вопрос в математической статистике разработаны методы

проверки статистических гипотез.

Определение. Статистической гипотезой называется любое предположение о виде или параметрах неизвестного закона распределения.

Различают простую и сложную статистические гипотезы. Проверяемую гипотезу называют нулевой и обозначают H0. Наряду с нулевой гипотезой H0 рассматривают альтер- нативную, или конкурирующую гипотезу H1, которая является логическим отрицанием

74

H0. Нулевая и альтернативная гипотезы представляют собой две возможности выбора, осуществляемого в задачах проверки статистических гипотез.

Определение. Правило, по которому гипотеза H0 отвергается или принимается,

называется статистическим критерием.

Статистические критерии, служащие для проверки гипотез о виде закона распределения называются критериями согласия.

Определение. Вероятность α допустить ошибку 1-го рода, т.е. отвергнуть гипотезу H0, когда она верна, называется уровнем значимости критерия.

Обычно, в качестве α берут значение 0, 05, редко 0, 01.

Определение. Вероятность (1−β) не допустить ошибку 2-го рода, т.е. отвергнуть

гипотезу H0, когда она неверна, называется мощностью (или функцией распределения)

критерия.

Наиболее часто для проверки критерия согласия используют критерий Пирсона ( χ2). При этом, в качестве меры расхождения эмпирического и теоретического законов распре-

деления берется величина

χ2 = n (ni − npi)2 ,

i=1 npi

ãäå niэмпирические (опытные) частоты; n− объем выборки; npiтеоретические часто-

òû; piвероятность вычисленная в

 

2 сравнивают с критическим (табличным) значением

 

 

зависимости от предполагаемого закона распределе-

ния. Найденное расчетное значение χ

 

2

2

 

 

χêðèò. = χ ;k, ãäå α− уровень значимости; k− число степеней свободы, которое высчи-

тывается по формуле k = m − s − 1, m− число интервалов в вариационном ряде; s− число параметров проверяемого закона распределения. Для нормального закона s = 2, для закона Пуассона s = 1.

Åñëè

22

χ< χêðèò.,

то гипотеза H0 принимается, в противном случае отвергается. Таблица значений критерия Пирсона.

k

1

2

3

4

5

6

7

8

9

10

χ2

3,81

5,99

7,82

9,49

11,1

12,6

14,1

15,5

16,9

18,3

0;05;k

Пример. Дано распределение рабочих предприятия по времени, затраченному на обработку одной детали:

 

 

 

 

 

 

 

 

 

, ni

5

14

55

16

10

время в мин., xi

4-4,5

4,5-5

5-5,5

5,5-6

6-6,6

 

число дет.

 

 

 

 

 

 

100

 

 

 

 

 

 

 

 

Необходимо:

1)установить закон распределения и найти его параметры;

2)найти выражение плотности вероятности и функции распределения;

3)пользуясь критерием Пирсона на уровне значимости 0,04 проверить гипотезу о выбранном законе распределения;

4)построить график плотности и функции распределения.

Решение. Построим гистограмму (ряд непрерывный) и сделаем предположение о виде закона распределения

Сформулируем гипотезу H0предполагается, что время обработки одной детали рабочим подчинено нормальному закону распределения.

75

Ni

55

16

14

10

5

 

 

 

 

Xi

 

 

 

 

 

4

4,5

5

5,5

6

6,5

Найдем параметры a = x, σ2 = σB2 . Перейдем к дискретному распределению, затем

составим вспомогательную таблицу, приняв c = 5, 25,

k = 0, 5.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi−c

xi−c

 

 

(

xi−c

2

 

 

 

 

 

 

xi

ni

 

xi − c

 

ni

 

 

 

 

 

 

 

 

 

 

k

k

 

k ) ni

 

 

 

 

 

 

4,25

5

 

 

-1

 

 

-2

-10

 

 

20

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4,75

14

 

 

-0,5

 

-1

-14

 

 

14

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5,25

55

 

 

0

 

 

0

0

 

 

 

0

 

 

 

 

 

 

 

5,75

16

 

 

0,5

 

1

16

 

 

16

 

 

 

 

 

 

 

6,25

10

 

 

1

 

 

2

20

 

 

40

 

 

 

 

 

 

 

100

 

 

-

 

 

-

12

 

 

90

 

 

 

 

 

12

· 0, 5 + 5, 25 = 5, 31;

σ2

90

 

· 0, 25 (5, 31 5, 25)2 = 0, 2214 → σ ≈ 0, 47.

 

x

=

 

=

 

 

100

100

Для нормально распределенной величины плотность распределения и функция распределения имеют вид:

 

1

 

 

2

 

 

φN (x) =

σ

 

· e(x−a)

= ,

2π

N

 

 

 

(

σ

)

F (x) = 0, 5 + 0,

 

x − a

.

 

 

3)Проверим гипотезу H0 о нормальном законе распределения случайной величины X

ñпомощью критерия Пирсона, на уровне значимости α = 0, 05.

Составим вспомогательную таблицу

 

 

 

 

 

xi

 

 

ni

pi

 

npi

 

(ni−npi)2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

npi

 

 

 

 

 

 

 

 

 

4-4,5

 

 

5

0,042

 

0,21

109,25

 

 

 

 

 

 

 

 

4,5-5

 

 

14

0,2101

 

2,94

41,606,25

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5-5,5

 

 

55

0,401

 

22,051

 

 

49,24

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5,5-6

 

 

16

0,274

 

4,384

 

 

30,7

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

6-6,5

 

 

10

0,065

 

0,65

 

 

134,4

 

 

 

 

 

 

 

 

 

 

 

 

100

 

 

 

 

= 365, 3

 

 

расчет

pi производим по формуле

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

p

 

= P (x

i

x

x

 

) = 0, 5 Φ

xi+1 − a

)

Φ

(

xi − a

Φ

 

 

i

 

 

 

 

i+1

[ (

σ

 

 

σ

) ]

 

 

 

 

 

 

 

 

 

 

 

 

76

 

 

 

 

 

 

 

 

 

т.к. предполагается, что случайная величина X нормально распределена.

 

 

2

2

= 5, 99, k = 5 2 1 = 2.

Далее, находим χêðèò. = χ0;05;k

Ò.ê. χ

2

2

 

 

 

> χкрит. то гипотезу H0 отвергаем.

íàáë.

На практике кроме критерия Пирсона часто используется критерий Колмогорова, в котором в качестве меры расхождения между теоретическим и эмпирическим распреде-

лениями рассматривается максимальное значение абсолютной величины разности между эмпирической функцией распределения F (x) и соответствующей теоретической функ-

цией распределения F (x), ò.å.

D = max |F (x) − F (x)|.

Доказано, что какова бы ни была функция распределения F (x) непрерывной случайной

величины X ïðè n → ∞ (n число наблюдений) вероятность неравенства P (D n ≥ λ) стремится к пределу

+

P (λ) = (1)ke2k2 2 .

k=−∞

Задавая уровень значимости α из соотношения P (λ ) = α можно найти соответствующее критическое значение λ .

Таблица значений критерия Колмогорова.

уровень

0,4

0,3

0,2

0,1

0,05

0,025

0,01

0,005

0,001

0,0005

значимости, α

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

êðèò. çíà÷., λ

0,89

0,97

1,07

1,22

1,36

1,48

1,63

1,73

1,95

2,03

Схема применения критерия Колмогорова.

1) Строятся эмпирическая функция распеределения F (x) и предполагается теорети- ческая функция расперделения F (x).

2) Определяется мера расхождения между ними, т.е. величина D по формуле D =

max |F (x) − F (x)|

и вычисляется величина

 

 

 

λ = D n.

3) Если вычисленное значение λ > λ (крит.), определенное на уровне значимости α, то гипотеза H0 о том, что случайная величина X имеет заданный закон распределенияотвергается. В противном случае, считают, что гипотеза H0 не противоречит опытным

данным.

Пример. Разобрать на практике.

77

Тема 4. Элементы теории корреляции.

Виды зависимости между переменными величинами. Корреляционные таблицы, их характеристики. Основная задача корреляционного анализа. Уравнения регрессии. Коэффициенты регрессии и их свойства. Коэффициент корреляции и его свойства. Оценка значимости (достоверности) коэффициента корреляции.

4.1. Функциональная и статистические зависимости.

Функциональная зависимость между двумя переменными величинами характеризуется тем, что каждому значению одной из них ставится определенное значение другой. Например, радиус круга и его площадь, количество потребляемой энергии и оплата и др.

Однако часто встречаются переменные величины (будем пока предполагать, что их две: x и y), являющиеся зависимыми, но каждому значению одной соответствует не определенное, а некоторое множество значений другой, причем число значений и сами эти значения не отражают определенной закономерности, например рост и вес, урожайность и количество удобрений, стаж работы и производительность труда, з/п и отчисления в пенсионный фонд и др.

Множество значений переменной y, соответствующих фиксированному значению пе-

ременной x, будем рассматривать как соответствующее ему распределение переменной y.

Переменные величины x и y, связаны статистически, если каждому значению одной из них соответствует распределение другой, меняющиеся с изменением первой величины и

по вариантам и по частотам.

Пример. В таблице дано распределение 100 рабочих предприятия по стажу работы X лет и производительности труда Y дет. в час

X Y

5-10

10-15

15-20

20-25

25-30

Итого:

 

 

 

 

 

 

 

1-3

11

4

-

-

-

15

3-5

9

8

3

-

-

20

5-7

6

9

9

7

1

32

 

 

 

 

 

 

 

7-9

-

2

9

9

2

22

 

 

 

 

 

 

 

9-11

-

-

4

4

3

11

 

 

 

 

 

 

 

Итого:

26

23

25

20

6

100

Данная таблица показывает, что, например, 4 из 100 рабочих имеют стаж работы 1

3 года и производительность 10 15 дет. в час.

Таблицы такого типа называются корреляционными. Данная корреляционная таблица дает основание сделать вывод, что с увеличением стажа производительность имеет тенденцию к повышению. Однако вид этой зависимостии ее аналитическое выражение пока остается неясным.

Общий вид корреляционной таблицы имеет вид:

X Y

y1

y2

. . .

. . .

yt

Итого:

x1

n11

n12

. . .

. . .

n1t

nx1

x2

n21

n22

. . .

. . .

n2t

nx2

. . .

. . .

. . .

. . .

. . .

. . .

. . .

 

 

 

 

 

 

 

xs

ns1

ns2

. . .

. . .

nst

nxs

Итого: nyj

ny1

ny2

. . .

. . .

nyt

nx1

ãäå n − частота, показывающая, что из n членов совокупности имеется n

ij ∑∑ ij таких, у которых переменная x = xi, y = yj, à nij = n.

ts

78

Отметим, что для корреляционных таблиц возможны три способа представления объема совокупности:

∑∑

i

m t

m

t

1)n =

nij, 2)n =

nxi, 3)n = nyj.

i=1 j=1

=1

j=1

4.2.Характеристики корреляционной таблицы.

1)Общая средняя переменной x:

s

x = i=1 xinxi , n

Пример: из таблицы:

x = 2 · 15 + 4 · 20 + 6 · 32 + 8 · 22 + 10 · 11. 100

2)Общая средняя переменной y:

y = ti=1 xjnyj , n

Пример: из таблицы:

y = 7, 5 · 26 + 12, 5 · 23 + 17, 5 · 25 + 22, 5 · 20 + 27, 5 · 6. 100

3)Дисперсия переменной x:

 

 

 

 

 

s

(xi

 

)2nx

 

 

 

 

 

 

x

 

 

 

 

 

 

 

i=1

 

 

σx2 = x2 − x2 =

n

 

 

i

,

4)Дисперсия переменной y:

 

 

 

 

 

t

(yi

 

)2nyj

 

 

 

 

 

y

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

σy2 = y2 − y2 =

n

 

 

,

5)Групповые средние.

Каждому значению xi переменной X можно поставить в соответствие среднюю арифметическую значений переменной y тех членов совокупности, у которых значений пере-

менной x (оно равно s) вся совокупность разбивается на s пересекающихся групп. Средняя арифметическàя этого распределения является групповой средней перемен-

ной y. Обозначив ее через yi, получим

 

 

 

 

 

 

 

 

 

 

t

 

 

 

 

 

 

 

 

 

 

 

 

 

j

=1 yjnij

 

 

 

 

 

 

 

 

yi =

 

 

 

 

 

 

 

 

nxi

 

 

Например:

 

 

 

 

 

 

 

 

7, 5 · 11 + 12, 5 · 4

 

 

 

x1 = 2,

 

1 =

=

 

 

y

 

 

 

 

 

 

 

 

 

 

 

15

 

 

x2

= 4,

 

 

=

 

7, 5 · 9 + 12, 5 · 8 + 17, 5 · 3

.

y

2

 

 

 

 

 

 

 

 

 

 

 

 

20

 

 

79

В корреляционной таблице переменные x и y равноправны. Поэтому можно было поставить в соответствие каждому значению yj переменной y среднюю арифметическую значе- ний переменной x тех членов совокупности, у которых значения переменной y одинаковы

и равны yj. По числу различных значений переменной y (оно равно t) всего получится t

пересекающихся групп.

Средняя арифмеòическая этого распределения групповая средняя переменной x. Обозначив ее через xj, можем записать

 

 

 

 

 

 

 

 

 

 

 

t

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j

=1 xinij

 

 

 

Например:

 

xj =

nyj

.

 

 

 

 

 

 

 

 

 

 

 

 

 

2 · 11 + 4 · 9 + 6 · 6

 

 

 

y1 = 7, 5,

 

 

1

=

,

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

26

 

 

 

y2 = 12, 5,

 

2 =

2 · 4 + 4 · 8 + 6 · 9 + 8 · 2

,

x

 

 

 

 

 

 

 

 

 

 

 

 

23

 

 

 

y5 = 27, 5,

 

5

=

6 · 1 + 8 · 2 + 10 · 3

.

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

6

 

 

 

Может оказаться, что между значåниями групповыми средними переменной y ( èëè

ïеременной x ( или y) и соответствующими x) существуют функциональные зависимости

 

 

= f(x),

(1)

y

 

= φ(y).

(2)

x

4.3. Корреляционная зависимость между переменными величинами.

Корреляционная зависимость между двумя переменными величинами функциональная зависимость между значениями одной величины и соответствующими групповыми средними другой.

Уравнения (1) называется корреляционной зависимостью y/x( y на x). Уравнение

(2) называется корреляционной зависимостью x/y (x íà y).

Уравнения (1) и (2) выражающие в общем виде корреляционные зависимости y/x è x/y называются корреляционными уравнениями (или уравнениями регрессии) соответ-

ственно y на x и x на y, а графики корреляционных уравнений кривыми регрессий соответственно y на x и x на y.

Понятие корреляция появилось в середине 19 в. в работах Гальтона и Пирсона. Термин произошел от латинского слова correlatoi взаимосвязь и regressio движение назад. Гальтон, который изучал связь между ростом родителей и детей, обнаружил явление регрессии к среднему, т.е. рост детей очень очень высоких родителей.

Основные задачи корреляционного анализа.

1)Составление корреляционных таблиц.

2)Расчет характеристик корреляционной таблицы.

3)Определение формы связи, т.е. определение вида функции (1) или (2).

Решение этой задачи проводится графическим методом по виду эмпирической линии. Эмпирическая линия y/x (кривая) ломанная, вершины которой находятся в точке

Mi(xi, yi). Или в точках Ni(xj, yj), если эмпирическая линия x/y.

4)Установление тесноты связи оценка степени рассеяния значений y около линии регрессии для разных значений x; или рассеяние значений x для разных значений y.

80