Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Статистический анализ данных в геологии. Кн. 1

.pdf
Скачиваний:
6
Добавлен:
12.11.2023
Размер:
14.63 Mб
Скачать

ции почти равен -fl,00. Менее явная корреляция изображена на рис. 2.16, б. В этом случае коэффициент корреляции равен только +0,54. Положение точек на рис. 2.16, в определено по таблице случайных чисел, и поэтому значения двух переменных совсем не имеют связи друг с другом, о чем свидетельствует коэффициент корреляции, близкий к нулю. Отрицательная кор­

реляционная

зависимость с

коэффициентом

корреляции, рав­

ным

—0,90,

изображена на рис. 2.16, г, который иллюстрирует

тот

случай,

когда одна переменная уменьшается, в то

время

как

другая

увеличивается.

Интересный предельный

случай

представлен

на рис. 2.16, д:

одна переменная

инварианта, т. е.

ее значения не изменяются. Попытка вычислить коэффициент корреляции приводит к необходимости деления на нуль; в этом случае коэффициент корреляции не определен. В примере, изображенном на рис. 2.16, е, очевидна взаимная зависимость между двумя переменными. Наблюдения Х\ и Х2 расположены на окружности, поэтому соотношение между двумя переменны­ ми можно представить в виде

хй =

впредположении, что центром окружности является начало координат. Радиус окружности равен а. Однако если вычислить корреляцию между Х\ и Хй, она окажется равной нулю. Это происходит потому, что коэффициент корреляции есть мера ли­ нейной зависимости между двумя переменными, а указанное

соотношение нелинейно. Существует много возможных нели­ нейных соотношений, которые могут возникнуть между двумя переменными. В подобной ситуации коэффициент корреляции нельзя считать удовлетворительной мерой степени таких зави­ симостей.

На практике выборочный коэффициент корреляции г вычис­ ляется по формуле

SPfk

П к

| ' S S . - S S k

~

Так как г измеряет линейное соотношение между двумя пе­ ременными, можно определить прямую линию, характеризую­ щую зависимость между ними. Это важный вопрос статистиче­ ского корреляционного и регрессионного анализа, являющегося основой большинства методов аппроксимации поверхностей.

52

 

Т а б л и ц а 2.5

Размеры раковин брахиопод

рода

Composiia, им

Длина

Ширина

18,4

15,4

16,9

15,1

13,6

10,9

11,4

9,7

7,8

7,4

6,3

5,3

Детально этот вопрос будет рассмотрен в следующих главах, а здесь мы остановимся на процедуре вычисления величины г.

При биологических исследованиях обычно наблюдается сильная корреляция свойств в пределах одной биологической группы организмов, так как результаты измерения отдельных характеристик в значительной степени зависят от общих раз­ меров особи. Так, например, в табл. 2.5 приведены результаты измерения длины и ширины раковин брахиопод рода Compo­ siia. Как легко установить, имеется сильная связь между этими двумя характеристиками, о чем свидетельствует вычисленное значение выборочного коэффициента корреляции.

Для вычисления оценки коэффициента корреляции между двумя столбцами измерений подсчитаем соответствующие квад­ раты и смешанные произведения. Это сделано в табл. 2.6, где Ла — длина, Х2— ширина. Коэффициент корреляции, равный 0,99, оказывается очень высоким, что подтверждает подозрение в том, что имеется прямая связь между длиной и шириной ра­ ковины. Столь сильные зависимости встречаются не всегда; в действительности весьма обычны задачи, в которых требуется определить, существует ли хоть какая-нибудь корреляция. К этому вопросу мы еще вернемся.

Наведенная корреляция

Некоторые корреляции между переменными не отражают соотношений между ними, но они индуцированы операциями или преобразованиями, которым были подвергнуты перемен­ ные. Две независимые случайные величины обычно имеют ну­ левую корреляцию. Однако некоторые операции над перемен­ ными могут привести к корреляции, отличной от нуля, хотя между ними не существует никакого линейного соотношения. Существующие корреляции могут быть изменены или даже об­ ращены такими операциями.

53

 

 

 

 

 

 

Таблица 2.6

Вычисление сумм квадратов, смешанных произведений

 

и коэффициента корреляции по данным табл. 2.5

X]2

 

X,

 

Ха

 

AV

338,56

 

18,4

283,36

15,4

 

237,16

285,61

 

16,9

255,19

15,1

 

228,01

184,96

 

13,6

148,24

10,9

 

118,81

129,96

 

11,4

110,58

9,7

 

94,09

60,84

 

7,8

57,72

7,4

 

54,76

39,69

 

6,3

33,39

5,3

 

28,09

W = 1039 62

ГАГ,= 74,4

2X ,J2=888,48

2 7 2=63,8

 

2АГг2=760.92

 

(74,4)(63,8)

97,37

= 19,47.

S P ;2= ( 888,48)— -— — а— — =97,37, covI2— —г ~

 

 

 

о

о

 

 

S S ,= (1039,62)-

(74,4)а

117,06. S S 2=

(63,8)2

 

(760,92) -

 

= 82,51.

 

117,06

 

-------

82,51

=

16,50.

 

— i —

=23,41. S i= у 23,41=4,84. s22= —

 

 

 

s2=Vl6,50=4,06.

 

 

 

 

 

 

19,47

 

 

 

 

 

0 , 2 =

=

0,991.

 

 

 

 

 

(4,84)(4,06)

 

 

 

Предположим, что образцы гальки случайно выбираются с галечного пляжа и измеряются три ортогональные оси на каж­ дом из них. Никаких попыток измерить самую длинную или самую короткую ось гальки не предпринимается ни для одного из образцов. Можно было бы предположить, что эти измерения будут коррелнрованы, так как наиболее вероятно, что большая галька будет иметь большие размеры по всем трем осям, а ма­ лая галька наоборот будет иметь малые размеры по всем трем, осям.

В табл. 2.7 приведены замеры, сделанные на коллекции гальки, и корреляции между переменными. Данные также представлены в виде скалярных диаграмм на рис. 2.17. Однако

если теперь оси выбрать в соответствии с

соглашением — по

определению наибольшая ось гальки — а,

наименьшая — с\

средняя — Ь, то такое упорядочение приведет к измерению кор­ реляций (табл. 2.8). Это особенно хорошо видно на скалярной диаграмме (рис. 2.17), так как такое определение приводит к смещению всех точек в пределах сектора диаграммы с углом-: 45°. В силу этого всегда должна существовать положительна» корреляция между любой парой осей, или между отношениями

54

 

 

 

Т а б л и ц а 2.7

Длины (в см) осей образцов гальки, собранной на пляже,

 

Оси перечислены в порядке измерений

 

Образец

Ось 1

Ось 2

Ось 3

а

3

7

8

ь

16

5

8

С

10

12

9

d

13

5

12

е

14

16

5

t

9

8

14

к

16

13

13

h

6

3

И

i

9

15

9

j

13

10

9

Суммы

109

94

98

Средние

10,9

9,4

9,8

Корреляции п,i=0,279 ri.3= —0,021 г23= —0,349

двух осей и третьей осью (например, между Ь/а в отношении к

с)-

Наведенные корреляции, причиняющие наибольшее беспо­ койство,— это ложные отрицательные корреляции, которые по­ являются в замкнутых множествах данных. Замкнутое множе­ ство данных — это такое множество, в котором сумма всех переменных, измеренных на индивидуальных представителях множества, равна 1,00 или 100%, что означает, что эти пере­ менные представляют собой определенные пропорции от цело­ го. Так как сумма переменных есть фиксированное число, то

Таблица 2.8

Длины (в см) осей образцов гальки, собранной на пляже

— наибольшая ось, b — промежуточная ось, с — наименьшая ось)

Образец

а

Ь

С

а

8

1

3

ь

( 16

8

5

с

12

10

9

d

13

12

5

е

16

14

5

/

14

9

8

g

16

13

13

h

11

6

3

i

15

9

9

i

13

10

9

Суммы

134

98

69

Средние

13,4

9,8

6,9

Корреляции Гаь=0,597 г«=0,499 г»с=0,467

55

а

 

 

 

 

 

 

 

 

 

 

 

Р4

• L

 

 

СО

f

, •

_

.

 

c f

 

 

 

 

 

 

 

Л

с

• 9

£

 

Q

 

, d

* 9

 

 

 

0

 

и

 

 

J

О

• п

 

 

• h

 

• /* С ©С

 

 

 

 

 

• a

 

 

 

L

® • а

 

 

 

 

 

 

 

 

о

^

h

 

d Ь

 

 

• е

 

 

 

 

• е

= 0,297

 

 

г ~ 0,02 J

 

 

 

г = 0.34 9

 

г

 

 

 

 

 

 

Ось 1

 

 

Ось 1

 

 

 

Ось 2

Рис, 2.17, Диаграмма рассеяния длин осей (в см) образцов гальки, отобран­ ных иа галечном пляже;

с — «сходные данные собраны наудачу; 6 — измерения рассортированы по осям а. Ь, е, что привело к смещению всех точек ниже диагонали диаграммы

Сланец

Рис. 2.18. Треугольная диаграмма галит— ангидрит—сланец как композицион­ ная система. Точки характеризуют средние содержания пород Веллинггоновской формации (пермь), извлеченных из скважин в Центральном Канзасе с интервалом 1,5 м

увеличение доли одной переменной может лишь привести к сокращению доли других переменных.

В открытом множестве, в котором измерения не представля­ ются в виде пропорций двух линейно независимых переменных, будет существовать корреляция, которая незначимо отличается от нуля. Если открытое множество данных замкнуть преобра­ зованием измерений в пропорции, то появятся давно значимые отрицательные корреляции, хотя исходные данные представля­ ли собой совершенно независимые переменные. В специальном случае замкнутой таблицы данных для трех переменных корре­ ляции между замкнутыми переменными определяются только через дисперсии в соответствии со следующим соотношением

г1 .2

•c8«-(Si« + V)

(2.25)

 

2S IS2

 

labile взаимные корреляции присущи любым

геологическим

данным, которые нанесены па треугольные диаграммы, напри­

мер, диаграммы

песчаник — глина — известняк пли трехфазные

диаграммы. Эти

обратные соотношения проистекают

из того

факта, что по мере увеличения

пропорций одной

составляю­

щей пропорции двух других составляющих

должны

умень­

шаться.

 

диаграмма

хлорид

натрия —

Рис. 2.18 — это треугольная

ангидрит — глина — составляющих компонент

осадочных гор­

ных пород. Нанесенные на рисунке точки представляют осадоч­ ные литологические пропорции в 5-футовом интервале солевого членя Хачисона пермской формации Веллингтона в скважине, пробуренной на территории Центрального Канзаса. Компози­ ции были вычислены по результатам у-, нейтронного, плотност­ ного и акустического каротажа, используемого для измерения петрофизических свойств интервала. Была пробурена контроль­ ная скважина для определения потенциальных возможностей размещения радиоактивных отходов.

В табл. 2.9 приведены композиции 10 интервалов, нанесен­ ных на рис, 2.18. В ней также представлены дисперсии трех минералогических компонент и корреляции, вычисленные на основе этих дисперсий. Заметим, что ковариации не обязатель­ ны для вычисления корреляций, как это было предопределено дисперсиями и эффектом замкнутости.

Так как данные с постоянными суммами наиболее распро­ странены в геологии, было предпринято много попыток при­ дать смысл статистическим связям между ними. Кох и Линк [18, т. II гл. 11] приводят некоторое число специальных стати­ стических критериев, пригодных для таких данных, Чейес [5] написал книгу, посвященную проблеме замкнутости, К сожале­ нию, предлагаемые статистические процедуры не универсальны

57

Т а б л и ц а 2.9 Литологический состав (с точностью до 5%) 1,5-метровых интервалов

впермской формации Веллингтона в Центральном Канзасе; оценки основаны иа петрографических измерениях по результатам каротажа скважин

Интервал

Ангидрит

Сланец

Хлорит натрия

а

75

20

5

ь

65

30

5

С

15

80

5

d

10

25

65

е

5

35

60

f

5

90

5

g

5

85

10

h

5

5

90

i

45

45

10

i

60

15

25

Суммы

290

430

280

Средине

29

43

28

Дисперсии

832,22

962,22

1001,11

Стандартные от-

28,25

31,02

31,64

клоиеиия

 

 

 

1001,11 — (832,22 + 962,22)

 

—793,47

 

2-28,85-31,02

~~

1789,85

~

962,22 — (832,22+ 1001,11)

 

—871,11

 

2-28,25-31,64

~

1787,66

832,22 — (962,22 + 1001,11)

 

—1131,11

 

2-31,02-31,64

~

1962,95

[19, 1] и в настоящее время нет вполне удовлетворительного метода вычисления силы связей между переменными в замкну­ тых множествах данных.

ПРОВЕРКА ГИПОТЕЗЫ О НОРМАЛЬНОМ РАСПРЕДЕЛЕНИИ

Прежде чем продолжить изложение, возвратимся немного назад к распределениям частот и, в частности, к нормальному распределению. Если вместо того чтобы рассматривать выбор­ ку только из шести значений, представленных в табл. 2.5, из­ мерить длины раковин очень большой коллекции Composita, то мы увидим, что частотная диаграмма будет выглядеть анало­ гично графику, изображенному на рис. 2.19. Среднему значе­ нию длины, в данном случае равному 14,2 мм, будет соответст­ вовать наибольшая частота, а постепенно уменьшающимся и увеличивающимся значениям будут отвечать уменьшающиеся частоты. Приблизительно две трети раковин -попадают в пре­ делы интервала (р—s, p + s) с центром в точке р=14,2, причем оценка стандартного отклонения приблизительно равна 4,7 мм.

58

Рис. 2.19. Гипотетическое распределение значений длины особей рода Сотроsita

Теперь рассмотрим измерения ширины, которые были сделаны при исследовании этой очень большой коллекции Composita. Распределение этого показателя по форме напоминает распре­ деление длины, но его среднее значение и стандартное откло­ нение в этом случае иные. Оно может выглядеть, например, подобно графику, изображенному на рис. 2.20, со средним зна­ чением 10.3 мм и стандартным отклонением 3,6 мм.

Можем ли мы сравнивать два распределения друг с дру­ гом? Измерения проведены в одних и тех же единицах, что облегчает проблему сравнения распределений длины и шири­ ны. Оба эти распределения можно изобразить в одном и том же масштабе, в результате чего получим рис. 2.21.

Конечно, сравнение было бы проще, если бы оба распреде­ ления имели один и тот же центр, т. е. равные средние значе­ ния. Мы можем центрировать их по отношению к общему сред­ нему значению, вычитая подходящее число из всех значений совокупности (или прибавляя некоторое число к значениям другой совокупности) таким образом, чтобы средние обеих со­ вокупностей совпали. Вместо этого вычтем соответствующее среднее значение из каждого наблюдения в каждой из двух совокупностей. Получим новые значения. Это преобразование сдвигает каждое из распределений вдоль горизонтальной оси до тех пор, пока их центры не совпадут со значением 0, явля­ ющимся средним для обоих преобразованных распределений, изображенных на рис. 2.22.

В рассмотренном примере мы связаны размерностью ре­ зультатов измерений, выраженной в миллиметрах. При этом никаких проблем не возникает, если мы будем сравнивать рас­ пределения длины и ширины, но если мы захотим сравнивать эти распределения с распределениями, характеризующими мас-

59

Рис. 2.20. Гипотетическое распределе­ ние значений ширины особей рода

Composita

Рис. 2.22, Распределения значений длины и ширины особей рода Сотposita

Рис. 2.21. Диаграмма распределения значений длины и ширины особей ро­ да Composita

Рис. 2.23. Распределения значений длины и ширины особей рода Сотроsita после стандартизации имеют ну­ левое среднее значение и стандартное отклонение, равное 1,0

су раковин, то нам это сделать не удастся. Существует ли ка­ кое-либо дополнительное преобразование, которое позволяет сделать наши распределения не зависящими от единиц изме­ рения? Одно из таких чрезвычайно полезных преобразований называется стандартизацией: в результате его применения но­ вые значения переменных имеют не только нулевое среднее значение, но также измеряются в единицах стандартных откло­ нений. Это делается просто с помощью вычитания среднего значения распределения из каждого наблюдения и деления каждой полученной разности на стандартное отклонение рас­ пределения. Эта новая переменная имеет стандартную нор­ мальную форму

Z i ~ (X i - X ) l s .

( 2.26)

60

Т а б л и ц а 2.1

Значения кумулятивной функции распределения стандартного

 

нормального распределения

[15]

 

Стандартные

Кумуяятив»

 

Стандартные

Кумулятив­

 

Стандартные

Кумулятнв-

отклонения

 

отклонения

 

отклонения

от среднего

ная вероят­

 

dv среднего

ная вероят­

 

ат среднего

ная вероят­

значения

ность

 

значения

ность

 

значения

ность

—3,0

0,0014

 

—0,9

0,1841

 

= i , i

0,8643

—2,9

0,0019

 

- 0 ,8

0,2119

 

+ 1,2

0,8849

—2,8

0,0026

 

—0,7

0,2420

 

+ 1,3

0,9032

- 2 ,7

0,0035

 

—0,6

0,2743

 

+ 1,4

0,9192

—2,6

0,0047

 

0.Г)

0,3085

 

+ 1,5

0,9332

—2,5

0,0062

 

—0,4

0,3446

 

1,6

0,9452

—2,4

0,0082

 

—0,3

0,3821

 

-f- - , /

0,9554

- 2 ,3

0,0107

 

—0,2

0,4207

 

- 1 ,8

0,9641

—2,2

0,0139

 

—0,1

0,4602

 

+ 1,9

0,9713

—2,1

0,0179

 

—0,0

0,5000

 

+ 2,0

0,9773

- 2 ,0

0,0228

 

- 0 ,0

0,5000

 

-2 ,1

0,9821

1,9

0,0287

 

+0,1

0,5398

 

—2,2

0,9861

—1,8

0,0359

 

-т-0,2

0,5793

1

J-2,3

0,9893

1,7

0,0446

 

+ 0,3

0,6179

—2,4

0,9918

1,6

0,0548

 

+0,4

0,С554

|

-г 2,5

0,9938

1,5

0,0668

 

+ 0,5

0,6915

j

= 2,6

0,9953

—1,4

0,0808

 

0,6

0,7257

- 2 ,7

0,9965

—1,3

0,0968

 

- 0 ,7

0,7580

'

—2.8

0,9974

1,2

0,1151

!

+0,8

0,7881

|

—2 9

0,9987

—1,1

0,1357

0,9

0,8159

 

- з . о

0,998!

1,0

0,1587

j

— i ,0

0,8413

 

 

 

Теперь, как это показано ка рис. 2.23, наши кривые частот различных совокупностей рода Composiia идентичны. Характе­ ристики стандартного нормального распределения очень хоро­ шо известны, а таблицы площадей, ограниченных указанными сегментами кривой, можно найти почти во всех учебниках по статистике. Напомним, что площади выражаются прямо через

вероятности.

Используя

сокращенную таблицу (например,

табл. 2.10),

можно найти

любую вероятность, связанную со

случайной выборкой из нормальной совокупности, значения ко­ торой расположены в некотором заданном интервале. Однако для этого нужно знать дисперсию совокупности.

Давайте сделаем нереальное предположение, что мы иссле­ довали всю совокупность рода Composita. Это значит, что мы зноем среднее значение длин ее элементов, равное 14,2 мм, и их стандартное отклонение, равное 4,7 мм. Какова вероятность появления при случайном выборе образца, меньшего 3 мм? Для получения ответа на этот вопрос приведем 3 мм к едини­ цам стандартного отклонения и затем обратимся к табл. 2.10:

Z = (3,0—14,2)/4,7 = — 2,4.

61

Соседние файлы в папке книги