Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Статистический анализ данных в геологии. Кн. 1

.pdf
Скачиваний:
6
Добавлен:
12.11.2023
Размер:
14.63 Mб
Скачать

Т а б л и ц а 2,20 Стандартизованные значения солености в заливе Уайтуотер

Номер об­

Выборочные

Стандарти­

Номер об­

Выборочные

Стандарт*

разца

значения

зованные

разца

зтачения

зованпые

 

 

значения

 

 

значения

1

46,00

— 0,38

25

35,00

— 1,57

2

37,00

— 1,35

26

49,00

— 0,06

3

62,00

1,34

27

48,00

— 0,17

4

59,00

1,02

28

39,00

-1 ,1 4

5

40,00

— 1,03

29

36,00

— 1,46

б

53,00

0,37

30

47,00

— 0,27

7

58,00

0,91

31

59,00

1,02

8

49,00

— 0,06

32

42,00

— 0,81

9

60,00

1,13

33

61,00

1,24

10

56,00

0,70

34

67,00

1,88

11

58,00

0,91

35

53,00

0,37

12

46,00

— 0,38

36

48,00

— 0,17

13

47,00

— 0,27

37

50,00

0,0о

14

52,00

0,27

38

43,00

— 0,71

15

51,00

0,16

39

44,00

— 0,60

16

60,00

1,13

40

49,00

— 0,06

17

46,00

— 0,38

41

46,00

— 0,38

18

36,00

— 1,46

42

63,00

1,45

19

34,00

— 1,68

43

53,00

0,37

20

51,00

0,16

44

40,00

— 1,03

21

60,00

1,13

45

50,00

0,05

22

47,00

— 0,27

46

78,00

3,07

23

40,00

— 1,03

47

48,00

— 0,17

24

40,00

— 1,03

48

42,00

— 0,81

мых в каждой категории возводится в квадрат, то значения статистического критерия не могут быть отрицательными. Сле­ довательно, %2-критерий всегда является односторонним, и об­ ласть отклонения гипотезы расположена справа.

В нашем примере область наблюдаемых значений должна быть разбита на четыре части с равными вероятностями. Если значения солености распределены нормально, то приблизитель­ но 12 нормализованных значений должно попасть в каждую из четырех категорий. По выборке вычисляем действительное чис­ ло наблюдений (частот попадания), содержащихся в каждой из этих групп. Так как групп всего четыре, то ожидаемые значе­

ния

числа наблюдений равны 12. Первый шаг — стандартиза­

ция

данных по формуле (2.26), повторяемой

здесь:

 

Zi = {Xi — X) fs.

(2.46)

Выборка данных, полученных при опробовании в заливе Уайтуотер, имеет оценку среднего X = 49,54 и оценку стандарт­ ного отклонения s = 9,27. Поэтому нормализация наблюдений осуществляется по формуле

Zt = (Xi — 49,54) /9,27.

102

Т а б л и ц а 2,21

Стандартизованные значения солености, сгруппированные для проверки гипотезы о нормальном распределения таким образом,

что каждой группе соответствует вероятность 0,25

Категория от —оо до —0,67

 

Категория

эт —0,67 до 0,0

 

— 1,35

— 1,14

 

—0,38

—0,17

 

— 1,03

— 1,46

 

—0,03

—0,27

 

— 1,46

—0,81

 

—0,38

—0,17

 

— 1,68

—0,71

 

—0,27

—0,60

 

— 1,03

— 1,03

 

—0,33

—0,06

 

— 1,03

—0,81

 

—0,27

—0,38

 

— 1,47

 

 

—0,03

—0,17

 

Общее число наблюдений

13

Общее число

наблюдений

14

Категория от 0.0 до +0,07

 

Категория

от +0,67 до ос

 

0,37

0,37

 

1,34

1,13

 

0,27

0,05

 

1,02

1,02

 

0,16

0,37

 

0,91

1,24

 

0,16

0,05

 

1,13

1,88

 

 

 

 

0,70

1,45

 

 

 

 

0,91

3,07

 

 

 

 

1,13

 

 

Общее число наблюдений

8

Общее число

наблюдений

13

Стандартизованные значения приведены в табл. 2.20. В табл. 2.21 приведены результаты разбиения всей выборки на четыре категории. Если выборку можно считать извлеченной из нор­ мальной совокупности, то следует ожидать приблизительно 12 наблюдений на категорию. Вычисляя значения критерия %2, получим следующие промежуточные результаты:

(13— 12)2 .

(14 —

12) 2

, (8 — 12)2

,

'■ “

ii— +

S

4

+

,

(13 — 12)2

22

1,83.

 

 

12

 

12

 

 

 

 

 

Вычисленное значение %2 меньше критического 2,71 10%-ного уровня значимости и одной степени свободы. Поэтому нет осно­ ваний считать, что распределение значений солености в поверх­ ностных водах существенно отклоняется от нормального закона.

Конечно, статистика %2 позволяет проверить гипотезу не только о нормальном распределении. Мы можем применить этот критерии для проверки гипотезы о любом другом законе рас-

ЮЗ

'Пределения, например, таком, как логнормальный, экспоненци­ альный и т. д. При этом процедура проверки не изменяется, хотя число степеней свободы в каждом случае зависит от числа оцениваемых параметров. Кохран [7] подробно рассматривает эти вопросы.

ЛОГНОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ И ДРУГИЕ ПРЕОБРАЗОВАНИЯ

Многие геологические переменные очевидно не подчиняются нормальному распределению. Если, например, нанести на гра­ фик объемы нефтяных полей (рис. 2.34), то полученное распре­ деление будет в высшей степени асимметричным. Большинство полей малы по размеру, но имеется убывающая последователь­ ность более крупных полей, немного редких гигантов, которые значительно превосходят другие по объему. Геохимические пе­ ременные, подвергнутые опробованию в процессе геохимическо­ го исследования, например, такие, как концентрация селена в растительном материале пли концентрация иода, обнаружен­ ная в пробах грунтовых вод, также подчиняются асимметрич­ ным распределениям. В распределениях размеров зерен в осад­ ках ярко выражена асимметрия, и целая система классифика­ ции основывается на этом факте [21]. На рис. 2.35 представле­ на гистограмма, показывающая концентрацию меди в осадоч­ ном русле на Юконе. На ней представлено асимметричное рас­ пределение, типичное для многих других геологических пере­ менных,

Если наблюдения, представленные на рис. 2.34 и 2.35, пре­ образовать в логарифмическую форму (т. е. вместо перемен­ ных X используются переменные Fj = log X,-, то мы убедимся, что

их

распределения

станут приблизительно

нормальными

(рис.

2.36 и 2.37).

Такие переменные называются

логнормаль­

ными. Так как они часто встречаются в геологии, то логнор­ мальное распределение в высшей степени важно. Однако если ограничиться рассмотрением преобразованных переменных У,-, а не самих X,-, то свойства логнормального распределения мож­ но просто охарактеризовать ссылкой на нормальное распреде­ ление.

Среднее и дисперсия логарифмически преобразованной пере­ менной Yi находятся обычным способом;

У = l Y t / n и

 

а _

Е Р Т - П 2

(2.47)

Y

п— 1

 

Однако в терминах исходной непреобразованной переменной^;

104

Рис. 2,34. Гистограмма распределения продуктивности нефтеносных полей, открытых в Денверском бассейне в 1969 г.

40 х-

35

30

25

° 20

О

3 15

10

5

О

среднее У соответствует корню п-й степени из произведений Xi

V = GM =■ ¥ ЛХ,,

(2.48)

который называется геометрическим средним, GM. Символ П аналогичен Б, только он означает, что элементы указанного вслед за ним ряда перемножаются, а не складываются. П так­ же имеет пределы, аналогичные тем, которые используются при знаке суммирования Е. Иногда эти пределы, если они очевид-

105

Рис. 2.36. Гистограмма распределения продуктивности нефтеносных полей, от крытых в Денверском бассейне в 1969 г.

Масштаб логарифмический. Взято из Харбука, Давтока, Девиса

Рис. 2.37. Гистограмма содержаний меди в осадочных породах на площади Нанси в Юконе.

Представлена в логарифмическом масштабе (291

3

ны, опускаются. Так. П X.-. гдеЛ'[=2, ^2 = 3, Х3 = 4, равно

ПАЙ = 2X 3X 4= 24.

Дисперсия логарифмически преобразованной переменной на­ зывается геометрической дисперсией и эквивалентна

(2.49!

На практике, конечно, проще преобразовать наши наблюдения, взяв их логарифмы, и затем вычислить их среднее и диспер­ сию. Если требуется найти геометрическое среднее и диспер­ сию, то надо взять антилогарифмы от У и sV До тех пор пока

106

Рис. 2,38. Объемы нефтяных залежей, связанных с соляными куполами в Луи­ зиане на внешнем континентальном шельфе (Мексиканский залив). По сейс­ мическим данным

мы работаем с данными в преобразованном виде, все статисти­ ческие процедуры, применяемые к обыкновенным переменным, пригодны и для логарифмически преобразованных переменных. Добавим еще, что логарифмическое преобразование перемен­ ных полезно, если требуется стабилизировать дисперсию и тем самым привести переменную с асимметричным распределением к более симметрическому виду. На рис. 2.38 представлены объ­ емы залежей нефти, ассоциированных с соляным куполом на площади внешнего континентального шельфа Луизианы. Эти объемы залежей нанесены на оси ординат графика; на оси абс­ цисс отложены площади структур, в которых расположены за­ лежи. В общем случае имеется положительная связь между двумя переменными; т. е. более крупные структуры обычно содержат более крупные залежи. Однако размер залежи так­ же увеличивается по мере увеличения размеров структур, или, другими словами, наблюдаемая дисперсия пропорциональна среднему.

107

Рис. 2.39. Данные рис, 2.38, представленные в логарифмическом масштабе

Логарифмическое преобразование помогает скорректиро­ вать это условие, как это легко увидеть на рис. 2.39. Здесь как объем залежи, так и размер структуры преобразуется взя­ тием их логарифмов, в результате получается график двойного логарифма. Дисперсия логарифмов объемов залежей остается почти постоянной для всех значении логарифмов размеров структур.

Характеристики

логнормального

распределения рассмотре­

ны в монографии Ачисона гг Брауна [2] и в геологическом кон­

тексте— Кохом гг

Линком f18].

Нормальное распределение

обычно возникает, когда производятся повторные замеры неко­ торой фиксированной величины р. Каждое индивидуальное из­ мерение претерпевает флуктуацию в силу многих случайных воздействий, которые складываются с измерением, действуя иногда в одном, а иногда в противоположных направлениях. Обычно эти случайные воздействия взаимно уничтожаются, гг окончательное измерение близко к истинному значению. Однако в редких случаях большинство случайных отклонении может иметь один и тот же знак, и тогда возникают экстремальные значения. Это явление отражено в колоколообразном виде нор­

мального распределения.

Логнормальное распределение может возникнуть при тех же обстоятельствах, если случайные воздействия не аддитивны,

108

а мультипликативны. Большинство случайных возмущений, пе­ ремноженных вместе, дают промежуточное значение произведе­ ния, близкое к геометрическому среднему. В редких случаях при случайном выборе все возмущения могут оказаться очень малыми, и нх произведение будет близко нулю. Так же редко все возмущения могут оказаться большими, и их произведение будет экстремально большим значением. Результатом многих случайных реализаций будет распределение, которое начина­ ется в нуле и возрастает до своего максимума, и затем спуска­ ется вниз, достигая экстремально больших значений.

Биологи часто ссылаются на «закон пропорционального эф­ фекта», состоящий в том, что изменение переменной в течение процесса есть случайная величина, пропорциональная исходно­ му значению этой переменной. Например, вероятность измене­ ния размера колоний микробов во временной промежуток про­ порциональна размеру колоний в предшествующий отрезок вре­ мени. Большие колонии стремятся расшириться (или умень­ шиться) в большей степени, чем малые колонии. Возможно, нефтяные месторождения формировались таким же образом, так что в течение миграции углеводородов большие скопления стремились увеличиться с пропорционально большей ско­ ростью, чем это происходило с малыми скоплениями. Такие процессы подчиняются логнормальному распределению.

Геологи, возможно, менее знакомы с «теорией дробления», которая предсказала заранее и объяснила логнормальное рас­ пределение для размеров частиц, которые наблюдаются в ес­ тественных осадках и в измельченном материале, производимом мельницами и дробилками. Предположим, что взят набор час­ тиц одинакового размера и затем каждая из них разделена случайным образом. В общем случае в результате один из об­ ломков каждой исходной частицы будет больше, другой — мень­ ше. Если затем каждый из этих обломков снова раздробить случайным образом, то из малых кусков получатся еще мень­ шие, в то время как каждый большой обломок даст снова боль­ ший и меньший куски. Если этот процесс повторять снова п снова, то в результате получим очень большое число очень ма­ лых частиц и немного «избранных» зерен, размеры которых близки к исходным размерам частиц. Другими словами логнор­ мальное распределение часто наблюдается при изучении осадков.

Другие преобразования

Для получения приблизительно нормального распределения можно над переменной X произвести также некоторые другие лоеобразования, которые преобразуют дисперсию к более при­

109

емлемому виду или дадут некоторые другие статистические по­ лезные результаты. Хотя ничего не было сказано об исходной шкале измерения, но мы должны чувствовать себя свободными в случае, если окажется полезным изменить ее. Однако следу­ ет постоянно помнить, что наш статистический анализ имеет целью проверку различных статистических гипотез, которые могут иметь место для характеристик преобразованных пере­ менных и не обязательно справедливых для исходных перемен­ ных. Конечно, следует позаботиться о том, чтобы используемые преобразования не были настолько экзотическими, чтобы за ними терялась природа исходных переменных, свойства которых исследуются.

Если наши данные представляют собой, например, число про­ дуктивных скважин в регионе или число зерен циркона в шли­ фе, эти числа могут подчиняться распределению Пуассона. Вместо того чтобы считать эти данные дискретными, удобнее привести их к приблизительно нормальному виду, извлекая из них квадратный корень, т. е. каждое значение Xt заменяется на

К=У % - Это преобразование сделает дисперсии более однород­ ными и приведет к сокращению длинного хвоста пуассоновско­ го распределения. Если наблюдаемые значения X, меньше, чем примерно 10, то удобнее использовать преобразование У;=

= ]/Х;+1/2, особенно в тех случаях, когда некоторые наблюдения равны нулю.

Робинсон [28] рекомендует использовать степенное преоб­ разование, например У,= ХД Уг= Х г-3 и так далее, при выявлении петрофизических свойств, по данным каротажа в скважинах. Возведение в степень приводит к большему увеличению боль­ ших значений, чем малых. Если возведение в степень приме­ нять после изменения масштаба так, что множество значений (Y max' УтIn) будет таким же, как и множество значений исход­ ных переменных {Хтгх—Xmin), то эффект будет заключаться в том, что на каротажных диаграммах будут подчеркиваться области высоких значений и подавляться участки, где значения низки. Степенное преобразование имеет такое же влияние на распределение данных и может быть использовано для исправ­ ления отрицательной асимметрии. Однако оно может также привести к увеличению дисперсии и сделать ее неоднородной.

Отрицательно асимметричное распределение иногда может быть приближенно преобразовано в нормальное, если приме­ нить преобразование y, = arcsin X;. При этом исходные перемен­ ные должны быть предварительно преобразованы в числа в пределах интервала (0,00—1,00). Другое преобразование аркси­ нуса, описанное в гл. 4, можно использовать для преобразова­ ния биноминального распределения в нормальное.

НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ

Все предыдущие статистические методы являются парамет­ рическими, т. е. они основаны на характеристиках распределе­ ний, параметры которых известны. Все используемые критерии (t, F и у2) строятся для выборок из нормальных совокупностей.

Для

обоснования возможности использования этих

критериев

в тех

случаях, когда исследуемая совокупность не

является

нормальной, при условии, что объем выборки велик н совокуп­ ность не очень сильно отличается от нормальной, следует обра­ титься к центральной предельной теореме. Иногда, однако, ис­ следуемая совокупность может сильно отличаться от нормаль­ ной, или же объем выборки нельзя увеличить. В таких случаях следует обратиться к категории критериев, называемых непара­ метрическими статистическими критериями. Их можно приме­ нять для обработки информации более низких шкал, таких, как номинальные и порядковые данные, в отличие от метрических данных, используемых в параметрической статистике. Не тре­

буется

никаких допущений о виде исходного распределения,

отсюда

и название — непараметрические критерии. Вообще,

в тех случаях, когда выборочная совокупность имеет характери­ стики, необходимые в параметрическом анализе, непараметрнческие критерии оказываются менее мощными, чем эквивалент­ ные параметрические. Однако если выборочная совокупность не имеет специфических характеристик, непараметрические ме­ тоды оказываются более мощными.

Непараметрические критерии в геологии широко не исполь­ зовались и обычно не приводятся в элементарных учебниках статистики. Однако есть много прекрасных книг, в которых опи­ саны непараметрические эквиваленты параметрических про­ цедур, уже рассмотренных нами. Среди них можно назвать книги Зигеля [30], Бредли [4] и Коновера [8] и др.

Критерий Манна — Уитни

Критерий Манна — Уитни можно использовать как непараметрическнй эквивалент ^-критерия для проверки гипотезы о равенстве средних двух выборок. Предположим, что мы имеем две выборки объема т и п и хотим проверить гипотезу о том, что они являются выборками из одной и той же совокупности. Объединим обе выборки и расположим значения наблюдений в порядке возрастания от меньшего к большему. Каждому наблюдению припишем его ранг, т. е. наименьшему значению припишем ранг I, следующему по величине — ранг 2 и так да­

лее, до

наибольшего наблюдения, которое будет иметь ранг

(т + п).

Если обе выборки были взяты из одной и той же сово-

-купностп

наудачу, то можно ожидать, что наблюдения одной

 

Ш

Соседние файлы в папке книги