Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Смольянов. тексты лекция

.pdf
Скачиваний:
29
Добавлен:
15.03.2016
Размер:
1.22 Mб
Скачать

80

Таблица 9.5 Расчет отклонений для получения коэффициента корреляции при малой

выборке

Исходные данные

 

 

Отклонения

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Д1,3

Прирост

αх

αу

 

α

 

·αу

α

2

α

2

(х), см

(у), см

 

х

х

у

 

 

 

 

 

 

 

8

0,6

-5

-1,3

 

+ 6,5

25

1,68

 

 

 

 

 

 

 

 

7

0,5

-6

-1,4

 

+ 8,4

36

1,96

 

 

 

 

 

 

 

 

9

1,0

-4

-0,9

 

+ 3,6

16

0,81

 

 

 

 

 

 

 

 

 

11

1,3

-2

-0,6

 

+ 1,2

4

 

0,36

 

 

 

 

 

 

 

 

 

10

1,2

-3

-0,7

 

+ 2,1

9

 

0,45

 

 

 

 

 

 

 

 

 

12

1,5

-1

-0,4

 

+ 0,4

1

 

0,16

 

 

 

 

 

 

 

 

 

14

2,0

+ 1

+ 0,1

 

+ 0,1

1

 

0,01

 

 

 

 

 

 

 

 

 

12

1,3

-1

-0,6

 

+ 0,6

1

 

0,36

 

 

 

 

 

 

 

 

 

15

2,8

+ 2

+ 0,9

 

+ 1,8

4

 

0,81

 

 

 

 

 

 

 

 

 

 

 

13

2,0

0

+ 0,1

 

 

 

0

0

 

0,01

 

 

 

 

 

 

 

 

 

14

2,2

+ 1

+ 0,3

 

+ 0,3

1

 

0,09

 

 

 

 

 

 

 

 

 

15

2,5

+ 2

+ 0,6

 

+ 1,2

4

 

0,36

 

 

 

 

 

 

 

 

20

3,3

+ 7

+ 1,4

 

+ 9,8

49

1,96

 

 

 

 

 

 

 

 

18

3,6

+ 5

+ 1,7

 

+ 8,5

25

2,89

 

 

 

 

 

 

 

 

17

2,7

+ 4

+ 0,8

 

+ 3,2

16

0,64

 

 

 

 

 

 

 

 

 

 

 

 

 

 

-22

-5,9

 

 

 

 

 

 

 

 

195

28,5

+ 22

+ 5,9

 

+ 47,7

192

12,6

 

 

0

0

 

 

 

 

 

 

 

 

Ошибку коэффициента корреляции (mr), его достоверности (tr) и доверительные границы (τr) определим по формулам, используемым Н.Н. Сваловым [10]:

m r

 

=

 

1 r

2

=

1 0 ,97 2

 

= ± 0 ,068 ;

 

 

 

N

2

 

15

2

 

 

 

 

 

 

 

 

 

 

 

 

t

 

=

 

r

=

 

0 ,970

= 14 ,3

> t

 

 

= 4 ,22 .

r

 

 

0 ,068

0 , 001

 

 

 

m

 

 

 

 

 

 

 

 

 

 

 

 

 

 

r

Поскольку фактическое значение tr = 14,3 значительно превышает величину стандартного значения критерия Стьюдента для уровня значимости 0,001 (tst = 4,22), делается заключение о высокой надежности коэффициента корреляции.

Доверительные границы коэффициента корреляции в конкретной выборке определяются по Р. Фишеру путем предварительного вычисления показателя

81

(заменяющего r) и его ошибки. Это коэффициент Z’- преобразованная величина r.

С помощью таблицы (приложения 5) определяем величину Z’ = 2,092 для конкретной выборочной совокупности, а затем его ошибку:

m

 

=

 

1

 

=

 

1

 

= 0,288.

Z

 

 

 

 

 

N 3

15 3

 

 

 

 

Доверительные границы для Z’ в генеральной совокупности ( Zr' ) получаем с помощью Стьюдента аналогично определению доверительных границ коэффициента корреляции при большой выборке:

f = N 2 = 15 2 = 13.

Zr' = ZB' ± t0,05 mZ ' = 2,092 ± 2,16 0,288 = 2,092 ± 0,622.

Следовательно, доверительный интервал Z’ в генеральной совокупности будет находиться в пределах от 1,47 до 2,714.

С помощью приложения и полученных предельных значений определяем обратным ходом доверительные границы для r в генеральной совокупности: от 0,90 до 0,99. Следовательно, с вероятностью 0,95 можно утверждать, что взаимосвязь Д1,3 и прироста не выйдет в генеральной совокупности за границы 0,90- 0,99. Вычисление показателя нелинейной корреляционной связи (корреляционного отношения) при малой выборке рассмотрим на примере соотношения между длиной стволиков (х) и (у) корней у 10 сеянцев сосны, согласно данным

Н.Н.Свалова [10]. Исходные данные и ход вычислений показаны в табл. 9.6. Вычисление корреляционного отношения производится по формуле 9.4,

применение которой возможно как при малой, так и для большой выборках. Используя исходные данные, вычисляем среднеарифметическую величи-

ну по зависимому признаку, а именно: My

=

y

=

40

= 4 см.

 

 

 

N

10

 

 

 

 

Затем по формуле αу = уМу определяем центральные отклонения отдельных значений у от Му, и вычисляем αу2 . Это величина используется для получения основного, среднеквадратического отклонения (σу), которое вычис-

 

 

 

α

у2

 

 

 

 

ляем по формуле

σ у

= +

= +

 

6,26

 

= 0,83.

N 1

10

1

 

 

 

 

 

82

Таблица 9.6. Вспомогательные расчеты для получения корреляционного отношения

при малой выборке

Исходные дан-

 

 

 

 

 

 

 

 

 

 

 

ные длины (см)

М у

αу

 

α у2

Wx

n

yx

αу

α у2

n

α 2

ство-

корней

 

ликов

(у)

 

 

 

 

 

x

 

 

 

x ·

у

 

 

 

 

 

 

 

 

 

 

 

(х)

 

 

 

 

 

 

 

 

 

 

 

 

4

3,0

 

-1,0

 

1,00

4

2

3,05

-0,95

0,9025

1,6050

4

3,1

 

-0,9

 

0,81

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5

3,3

 

-0,5

 

0,25

 

 

 

 

 

 

 

5

4,1

4,0

+ 0,1

 

0,01

5

3

3,70

-0,30

0,0900

0,2700

5

3,5

 

-0,5

 

0,25

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

6

4,0

 

0

 

0

 

 

 

 

 

 

 

6

3,5

 

-0,5

 

0,25

6

3

4,17

+0,17

0,0289

0,0867

6

5,0

 

+ 1,0

 

1,00

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

7

5,0

 

+ 1,0

 

1,00

7

2

5,15

+1,15

1,3225

2,6450

7

5,3

 

+ 1,3

 

1,69

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

-3,4

 

 

 

 

 

 

 

 

 

 

у = 40

 

+ 3,4

 

6,26

 

10

 

 

 

4,8017

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Для получения σу

сначала определяют принадлежность значений у к

 

 

 

х

 

 

 

 

 

 

 

 

 

конкретным классам (Wх) по признаку х. Для каждого из этих классов вычисляют среднеарифметическое (групповое среднее) значение (ух), а затем по фор-

муле α у = ух М у получают отклонения, их квадрат (αу2

) и сумму квадра-

х

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

х

тов ( αу2

), что подставляется в формулу вычисления среднеквадратическо-

 

х

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

го отклонения групповых средних зависимого признака:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

nα y2

 

 

 

 

 

 

 

σ

 

= +

 

 

=

 

4,8017

= 0,73.

 

y

 

 

 

N 1

 

10 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

В результате вычисляется корреляционное отношение:

 

 

 

 

 

 

 

 

σ у

0,73 = 0,88 .

 

 

 

 

η

 

=

 

х

=

 

 

 

 

у

 

 

 

 

 

 

 

 

 

 

σ у

0,83

 

 

 

 

 

 

 

х

 

 

 

 

 

 

83

Оценка достоверности ηу производится обычным путем, т.е. через mη и tη

х

с помощью критерия Стьюдента, а именно:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

mη

= ±

 

 

(1 η 2

)

= ±

 

(1 0,88

2 )

= ±0,17 ;

 

 

 

N 2

 

 

 

 

10 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

tη

=

 

η

 

=

 

0,88

= 5,2 > t0,001 = 5,04 .

m µ

 

0,17

0,17

 

 

 

 

 

 

 

 

 

Согласно указаниям Н.Н. Свалова [7], корреляционное отношение, полученное по вышеприведенной формуле для малой выборки недостаточно надежно. Оно часто искажает реальную характеристику связи и не может быть использовано при тщательном анализе репрезентативности исходных данных.

Вопросы для самопроверки:

1 Понятие о функциональных и корреляционных связях.

2 Виды и формы корреляции.

3 Построение корреляционной таблицы.

4 Использование начальных моментов при вычислении средних величин и основных отклонений по коррелирующим признакам.

5 Коэффициент корреляции. Техника его вычисления.

6 Малая выборка и корреляция.

7 Оценка тесноты корреляционных связей.

8 Ошибка и достоверность коэффициента корреляции.

9 Доверительный интервал для коэффициента корреляции в генеральной совокупности.

10 Корреляционное отношение, его практическое использование. Малая выборка.

11 Ошибки корреляционного отношения. Достоверность.

12 Доверительный интервал для генеральной совокупности.

13 Мера линейности и ее оценка. Статистический анализ корреляции.

84

ЛЕКЦИЯ X

Регрессионный анализ

План лекции

1 Задачи регрессионного анализа.

2 Определение коэффициентов уравнений.

3 Техника вычисления уровней регрессии. Оценка точности.

4 Общие принципы выбора оптимальной модели.

1 Задачи регрессионного анализа

Коэффициент корреляции, корреляционное отношение и мера криволинейности позволяют определить тесноту корреляции, ее направленность и форму. Однако в научных исследованиях часто возникает необходимость в более детальном анализе корреляции и использовании ее для нахождения вероятных значений признаков. Эти задачи решаются методом регрессионного анализа.

Регрессия – зависимость среднего значения какой-либо величины от некоторой другой величины или от нескольких величин. Регрессионный анализ включает выбор уравнения наиболее точно выражающего зависимость одного признака от другого, нахождение конкретных значений коэффициентов уравнения, оценку их значимости, оценку точности уравнения, определение его эффективности при изменении вариации. Найти конкретное математическое выражение регрессии – значит определить входящие в избранное уравнение коэффициенты. Математически линейная зависимость между признаками выражается в общем виде y = f (x). В этом выражении х соответственно значение независимого, а у – зависимого признака.

Перед началом моделирования регрессии и выбора вида модели (графический, табличный, аналитический), прежде всего необходимо установить наличие корреляционной взаимосвязи между сравниваемыми признаками. С этой целью исходные данные отображаются на графике, по которому в результате визуального осмотра делают заключение о наличии или отсутствии корреляции. Рассмотрим особенности графического выравнивания зависимости между двумя сопряженными признаками при малой и большой выборке.

При малой выборке (N < 25…30) на графике откладываются конкретные значения отдельных наблюдений (не объединенных в классы), т.е. строится так называемый точечный график. Результирующая линия проводится между точ-

85

ками по середине с таким расчетом, чтобы разделить их общее количество на две приблизительно равные части. При этом необходимо стремиться к такому положению, чтобы расстояние между линией и исходными точками было кратчайшим. Для облегчения техники выравнивания и увеличения его точности можно рекомендовать следующий прием. Соединив все выравниваемые точки, постараться провести плавную выравнивающую линию по возможности ближе к этим серединам. В результате выравнивания в нашем примере (рис.10.1), где N = 16, над выравнивающей прямой расположено шесть точек, под ней семь точек и три находятся непосредственно на ней.

Рис. 10.1 Графическое выравнивание взаимосвязи при малой выборке

На рис.10.2 показан пример выравнивания при большой выборке, когда результаты наблюдений группируются в классы. В этом случае выравниваемые значения у по классам х представляют собой средние значения, полученные как среднеарифметическое из нескольких наблюдений в классе, а именно:

 

N

уi

 

 

 

=

 

 

y

,

(10.1)

N

 

i=1

 

 

где уi – данные относительных наблюдений;

у – среднеарифметическое значение из всех наблюдений; N – число наблюдений.

Рассмотрим два способа выравнивания: без учета веса наблюдений и при учете их веса. В случае выравнивания без учета наблюдений веса необходимо руководствоваться принципом выравнивания при малой выборке. При этом ус-

86

ловно допускается, что все выравниваемые значения у по классам х имеют одинаковый «вес», приравниваемый к единице.

Рис 10.2 Графическое выравнивание взаимосвязи при большой выборке:

без учета веса наблюдений; ------- с учетом веса наблюдений; 15 – число наблюдений в классе

Показанная на рисунке выравнивающая кривая (сплошная линия) разделяет исходные точки на две приблизительно равные части: четыре точки над кривой и три точки под ней. Этот способ выравнивания следует применять в тех случаях, когда во всех классах имеется равное или близкое число наблюдений.

Рассмотрим пример, когда в отдельных классах имеется явно различное число наблюдений, а именно:

№ класса

1

2

3

4

5

6

7

 

 

 

 

 

 

 

 

Число наблюдений

3

15

17

21

2

9

1

 

 

 

 

 

 

 

 

Учитывая вес наблюдений, необходимо проводить выравнивающую кривую, принимая во внимание главным образом те точки, которые представлены сравнительно большим числом наблюдений. В нашем примере – это классы №2, №3, №4, №6. В отличие от кривой, проведенной без учета веса наблюдений, в данном случае в начальных классах получилась более круто восходящая линия, что вызвано большим весом частот в классе №2, где n = 15, и в классе №3, где n = 17. Более высокое положение выравнивающей кривой в последующих классах №4 (n = 21) и №6 (n = 9) в сравнении с малым весом классов №5 (n = 2) и №7 (n = 1). Таким образом, в результате применения любого из методов получается выравнивающая линия, которая и является графической моделью корреляционной зависимости.

87

Если же с полученной кривой снять значения у по классам х, можно получить выровненные числовые значения зависимого признака, т.е. табличную модель. Следовательно, полученные описанными способами результаты графического выравнивания могут быть использованы в двух направлениях:

1)для решения вопроса о наличии корреляционной связи, а следовательно, выяснения возможности дальнейшего аналитического (математического) моделирования;

2)как готовая графическая или табличная модель.

При выборе одного из указанных направлений необходимо учитывать, что путь графического выравнивания позволяет получить результаты сравнительно быстро, но с некоторой неточностью, что объясняется невозможностью устранить субъективизм исследователя при проведении выравнивающих линий.

Аналитическое выравнивание гораздо более трудоемко, но исключает субъективность в оценках, обеспечивая получение более точных данных в виде конкретных уравнений связи двух признаков.

2 Определение коэффициентов уравнений

Имеется несколько способов определения коэффициентов уравнений, применяемых при аналитическом выравнивании. Целью аналитического выравнивания является получение конкретного уравнения связи между двумя признаками: х, у. Наиболее трудным и важным вопросом является выбор вида уравнения, намечаемого для выравнивания. С этой целью, прежде всего с по-

мощью графика, решается вопрос о характере связи х у : линейная или нели-

нейная. В случае установления линейной связи выбор модели однозначен – принимается уравнение прямой линии. Заметим, что для уверенной констатации линейности необходимо использовать данные (в случае их наличия) полного корреляционного анализа с получением меры линейности (Z) и ее ошибки (mZ). Напомним, что имеющиеся в этом случае данные позволяют получить сразу (минуя выравнивание) конкретные уравнения корреляционной связи.

Если связь нелинейная, выбор уравнения представляет определенные трудности. В качестве модели могут быть выбраны самые различные уравнения: парабола различных порядков, гипербола, логарифмическая как показательная функция и др.

Допустим, что точечный график, построенный по значениям х у , не позволяет сделать четкого заключения о характере связи (линейная или нелиней-

88

ная). Это обуславливается необходимостью производства моделирования путем вычисления регрессионных уравнений как линейной, так и нелинейной связи с последующим выбором оптимального. Для примера аналитического выравнивания используются данные взаимосвязи двух сопряженных признаков: диаметров (Д), принятых за х, и высот деревьев (Н), принятых за у (табл. 10.1).

Таблица 10.1 Взаимосвязь диаметров и высот (невыравненные данные)

Изучаемые

 

 

Величины признаков по классам

 

 

признаки

 

 

 

 

 

 

 

 

 

1

2

3

4

5

6

7

8

9

 

 

 

 

 

 

 

 

 

 

Д (х), см

12

16

20

24

28

32

36

40

44

 

 

 

 

 

 

 

 

 

 

Н (у), м

16,00

18,00

20,15

22,14

23,48

23,65

24,62

26,00

27,00

 

 

 

 

 

 

 

 

 

 

Выравнивание по уравнению прямой линии. Аналитическое выравнивание имеет своей конечной целью получение конкретного уравнения связи между двумя сопряженными признаками.

Как известно, уравнение линейной зависимости общего вида будет иметь вид y = a + bx . Вычисление конкретного уравнения сводится к определению числовых значений коэффициентов а, b, для получения которых существует несколько способов. Рассмотрим два наиболее широко применяемых способа, характеризующихся различной точностью и трудоемкостью:

а) способ наименьших квадратов, позволяющий получить достаточно точные результаты путем использования координат всех выравниваемых точек (наблюдений);

б) способ координат двух избранных точек, обеспечивающий получение менее точных результатов, но гораздо более простым и быстрым путем.

Остановимся на технике работ при вычислении конкретного уравнения методом координат избранных точек. В этом случае исходные данные изображаются на графике, и производится предварительное выравнивание. С полученной прямой линии снимаем координаты двух любых точек исходных данных, выбирая их из числа наиболее близко расположенных по отношению к предварительно проведенной прямой. Если число наблюдений в классах известно, то следует отдать предпочтение точкам, обеспеченным наибольшим числом наблюдений. В нашем примере в качестве избранных использованы координаты точек классов №2 и №6.

х2 = 16

у2 = 18,00

 

 

х6 = 32

у6 = 23,65

 

 

89

 

у2

= а + bx2

 

Система двух конкретных уравнений приобретет вид:

= a

+ bx6

 

 

y6

 

 

18,00 = а + 16b

 

После подстановки координат избранных точек:

 

 

 

 

 

23,65 = a + 32b

 

После решения системы относительно а и b получим: а = 12,4; b = 0,35.

 

 

х

 

Д

 

Следовательно, полученное конкретное уравнение связи

 

 

бу-

 

у

Н

дет иметь вид: у = 12,4 + 0,35х .

 

 

 

 

(I)

Для краткости изложения в последующем тексте полученным конкретным уравнениям связи присвоены определенные номера: уравнение, вычисленное методом координат точек, получает номер I, а уравнение, полученное методом наименьших квадратов – номер II.

Пределы «работы» полученного уравнения по диаметру от 10 см до 46 см. При вычислении конкретного уравнения методом наименьших квадратов используются все имеющиеся опытные точки. Коэффициенты а и b в этом случае определяют на основании следующей вспомогательной системы двух

уравнений:

 

у = аn + bx

 

 

 

 

xy = ax + bx 2

(10.1.)

 

Рассмотрим, как получается эта система уравнений. Подставляя в общее уравнение прямой поочередно все имеющиеся опытные данные и пронумеровав правые и левые части, получим первое вспомогательное уравнение:

y1 = a + bx 1 y 2 = a + bx 2

.......... .........

(10.1.1)

y n = a n + bx n

y = an + b x n

По одному уравнению нельзя найти два неизвестных. Чтобы получить второе вспомогательное уравнение нужно каждое из записанных выше исходных уравнений умножить на соответствующий х и просуммировать правые и левые части: