книги / Статистический анализ данных в геологии. Кн. 1
.pdfТ а б л и ц а 2,20 Стандартизованные значения солености в заливе Уайтуотер
Номер об |
Выборочные |
Стандарти |
Номер об |
Выборочные |
Стандарт* |
разца |
значения |
зованные |
разца |
зтачения |
зованпые |
|
|
значения |
|
|
значения |
1 |
46,00 |
— 0,38 |
25 |
35,00 |
— 1,57 |
2 |
37,00 |
— 1,35 |
26 |
49,00 |
— 0,06 |
3 |
62,00 |
1,34 |
27 |
48,00 |
— 0,17 |
4 |
59,00 |
1,02 |
28 |
39,00 |
-1 ,1 4 |
5 |
40,00 |
— 1,03 |
29 |
36,00 |
— 1,46 |
б |
53,00 |
0,37 |
30 |
47,00 |
— 0,27 |
7 |
58,00 |
0,91 |
31 |
59,00 |
1,02 |
8 |
49,00 |
— 0,06 |
32 |
42,00 |
— 0,81 |
9 |
60,00 |
1,13 |
33 |
61,00 |
1,24 |
10 |
56,00 |
0,70 |
34 |
67,00 |
1,88 |
11 |
58,00 |
0,91 |
35 |
53,00 |
0,37 |
12 |
46,00 |
— 0,38 |
36 |
48,00 |
— 0,17 |
13 |
47,00 |
— 0,27 |
37 |
50,00 |
0,0о |
14 |
52,00 |
0,27 |
38 |
43,00 |
— 0,71 |
15 |
51,00 |
0,16 |
39 |
44,00 |
— 0,60 |
16 |
60,00 |
1,13 |
40 |
49,00 |
— 0,06 |
17 |
46,00 |
— 0,38 |
41 |
46,00 |
— 0,38 |
18 |
36,00 |
— 1,46 |
42 |
63,00 |
1,45 |
19 |
34,00 |
— 1,68 |
43 |
53,00 |
0,37 |
20 |
51,00 |
0,16 |
44 |
40,00 |
— 1,03 |
21 |
60,00 |
1,13 |
45 |
50,00 |
0,05 |
22 |
47,00 |
— 0,27 |
46 |
78,00 |
3,07 |
23 |
40,00 |
— 1,03 |
47 |
48,00 |
— 0,17 |
24 |
40,00 |
— 1,03 |
48 |
42,00 |
— 0,81 |
мых в каждой категории возводится в квадрат, то значения статистического критерия не могут быть отрицательными. Сле довательно, %2-критерий всегда является односторонним, и об ласть отклонения гипотезы расположена справа.
В нашем примере область наблюдаемых значений должна быть разбита на четыре части с равными вероятностями. Если значения солености распределены нормально, то приблизитель но 12 нормализованных значений должно попасть в каждую из четырех категорий. По выборке вычисляем действительное чис ло наблюдений (частот попадания), содержащихся в каждой из этих групп. Так как групп всего четыре, то ожидаемые значе
ния |
числа наблюдений равны 12. Первый шаг — стандартиза |
|
ция |
данных по формуле (2.26), повторяемой |
здесь: |
|
Zi = {Xi — X) fs. |
(2.46) |
Выборка данных, полученных при опробовании в заливе Уайтуотер, имеет оценку среднего X = 49,54 и оценку стандарт ного отклонения s = 9,27. Поэтому нормализация наблюдений осуществляется по формуле
Zt = (Xi — 49,54) /9,27.
102
Т а б л и ц а 2,21
Стандартизованные значения солености, сгруппированные для проверки гипотезы о нормальном распределения таким образом,
что каждой группе соответствует вероятность 0,25
Категория от —оо до —0,67 |
|
Категория |
эт —0,67 до 0,0 |
|
|
— 1,35 |
— 1,14 |
|
—0,38 |
—0,17 |
|
— 1,03 |
— 1,46 |
|
—0,03 |
—0,27 |
|
— 1,46 |
—0,81 |
|
—0,38 |
—0,17 |
|
— 1,68 |
—0,71 |
|
—0,27 |
—0,60 |
|
— 1,03 |
— 1,03 |
|
—0,33 |
—0,06 |
|
— 1,03 |
—0,81 |
|
—0,27 |
—0,38 |
|
— 1,47 |
|
|
—0,03 |
—0,17 |
|
Общее число наблюдений |
13 |
Общее число |
наблюдений |
14 |
|
Категория от 0.0 до +0,07 |
|
Категория |
от +0,67 до ос |
|
|
0,37 |
0,37 |
|
1,34 |
1,13 |
|
0,27 |
0,05 |
|
1,02 |
1,02 |
|
0,16 |
0,37 |
|
0,91 |
1,24 |
|
0,16 |
0,05 |
|
1,13 |
1,88 |
|
|
|
|
0,70 |
1,45 |
|
|
|
|
0,91 |
3,07 |
|
|
|
|
1,13 |
|
|
Общее число наблюдений |
8 |
Общее число |
наблюдений |
13 |
Стандартизованные значения приведены в табл. 2.20. В табл. 2.21 приведены результаты разбиения всей выборки на четыре категории. Если выборку можно считать извлеченной из нор мальной совокупности, то следует ожидать приблизительно 12 наблюдений на категорию. Вычисляя значения критерия %2, получим следующие промежуточные результаты:
(13— 12)2 . |
(14 — |
12) 2 |
, (8 — 12)2 |
, |
|
'■ “ |
ii— + |
S |
4 |
“ |
+ |
, |
(13 — 12)2 |
22 |
1,83. |
|
|
|
12 |
|
12 |
|
|
|
|
|
|
Вычисленное значение %2 меньше критического 2,71 10%-ного уровня значимости и одной степени свободы. Поэтому нет осно ваний считать, что распределение значений солености в поверх ностных водах существенно отклоняется от нормального закона.
Конечно, статистика %2 позволяет проверить гипотезу не только о нормальном распределении. Мы можем применить этот критерии для проверки гипотезы о любом другом законе рас-
ЮЗ
'Пределения, например, таком, как логнормальный, экспоненци альный и т. д. При этом процедура проверки не изменяется, хотя число степеней свободы в каждом случае зависит от числа оцениваемых параметров. Кохран [7] подробно рассматривает эти вопросы.
ЛОГНОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ И ДРУГИЕ ПРЕОБРАЗОВАНИЯ
Многие геологические переменные очевидно не подчиняются нормальному распределению. Если, например, нанести на гра фик объемы нефтяных полей (рис. 2.34), то полученное распре деление будет в высшей степени асимметричным. Большинство полей малы по размеру, но имеется убывающая последователь ность более крупных полей, немного редких гигантов, которые значительно превосходят другие по объему. Геохимические пе ременные, подвергнутые опробованию в процессе геохимическо го исследования, например, такие, как концентрация селена в растительном материале пли концентрация иода, обнаружен ная в пробах грунтовых вод, также подчиняются асимметрич ным распределениям. В распределениях размеров зерен в осад ках ярко выражена асимметрия, и целая система классифика ции основывается на этом факте [21]. На рис. 2.35 представле на гистограмма, показывающая концентрацию меди в осадоч ном русле на Юконе. На ней представлено асимметричное рас пределение, типичное для многих других геологических пере менных,
Если наблюдения, представленные на рис. 2.34 и 2.35, пре образовать в логарифмическую форму (т. е. вместо перемен ных X используются переменные Fj = log X,-, то мы убедимся, что
их |
распределения |
станут приблизительно |
нормальными |
(рис. |
2.36 и 2.37). |
Такие переменные называются |
логнормаль |
ными. Так как они часто встречаются в геологии, то логнор мальное распределение в высшей степени важно. Однако если ограничиться рассмотрением преобразованных переменных У,-, а не самих X,-, то свойства логнормального распределения мож но просто охарактеризовать ссылкой на нормальное распреде ление.
Среднее и дисперсия логарифмически преобразованной пере менной Yi находятся обычным способом;
У = l Y t / n и |
|
|
а _ |
Е Р Т - П 2 |
(2.47) |
Y |
п— 1 |
|
Однако в терминах исходной непреобразованной переменной^;
104
Рис. 2,34. Гистограмма распределения продуктивности нефтеносных полей, открытых в Денверском бассейне в 1969 г.
40 х-
35
30
■25
° 20
О
3 15
10
5
О
среднее У соответствует корню п-й степени из произведений Xi
V = GM =■ ¥ ЛХ,, |
(2.48) |
который называется геометрическим средним, GM. Символ П аналогичен Б, только он означает, что элементы указанного вслед за ним ряда перемножаются, а не складываются. П так же имеет пределы, аналогичные тем, которые используются при знаке суммирования Е. Иногда эти пределы, если они очевид-
105
Рис. 2.36. Гистограмма распределения продуктивности нефтеносных полей, от крытых в Денверском бассейне в 1969 г.
Масштаб логарифмический. Взято из Харбука, Давтока, Девиса
Рис. 2.37. Гистограмма содержаний меди в осадочных породах на площади Нанси в Юконе.
Представлена в логарифмическом масштабе (291
3
ны, опускаются. Так. П X.-. гдеЛ'[=2, ^2 = 3, Х3 = 4, равно
ПАЙ = 2X 3X 4= 24.
Дисперсия логарифмически преобразованной переменной на зывается геометрической дисперсией и эквивалентна
(2.49!
На практике, конечно, проще преобразовать наши наблюдения, взяв их логарифмы, и затем вычислить их среднее и диспер сию. Если требуется найти геометрическое среднее и диспер сию, то надо взять антилогарифмы от У и sV До тех пор пока
106
Рис. 2,38. Объемы нефтяных залежей, связанных с соляными куполами в Луи зиане на внешнем континентальном шельфе (Мексиканский залив). По сейс мическим данным
мы работаем с данными в преобразованном виде, все статисти ческие процедуры, применяемые к обыкновенным переменным, пригодны и для логарифмически преобразованных переменных. Добавим еще, что логарифмическое преобразование перемен ных полезно, если требуется стабилизировать дисперсию и тем самым привести переменную с асимметричным распределением к более симметрическому виду. На рис. 2.38 представлены объ емы залежей нефти, ассоциированных с соляным куполом на площади внешнего континентального шельфа Луизианы. Эти объемы залежей нанесены на оси ординат графика; на оси абс цисс отложены площади структур, в которых расположены за лежи. В общем случае имеется положительная связь между двумя переменными; т. е. более крупные структуры обычно содержат более крупные залежи. Однако размер залежи так же увеличивается по мере увеличения размеров структур, или, другими словами, наблюдаемая дисперсия пропорциональна среднему.
107
Рис. 2.39. Данные рис, 2.38, представленные в логарифмическом масштабе
Логарифмическое преобразование помогает скорректиро вать это условие, как это легко увидеть на рис. 2.39. Здесь как объем залежи, так и размер структуры преобразуется взя тием их логарифмов, в результате получается график двойного логарифма. Дисперсия логарифмов объемов залежей остается почти постоянной для всех значении логарифмов размеров структур.
Характеристики |
логнормального |
распределения рассмотре |
ны в монографии Ачисона гг Брауна [2] и в геологическом кон |
||
тексте— Кохом гг |
Линком f18]. |
Нормальное распределение |
обычно возникает, когда производятся повторные замеры неко торой фиксированной величины р. Каждое индивидуальное из мерение претерпевает флуктуацию в силу многих случайных воздействий, которые складываются с измерением, действуя иногда в одном, а иногда в противоположных направлениях. Обычно эти случайные воздействия взаимно уничтожаются, гг окончательное измерение близко к истинному значению. Однако в редких случаях большинство случайных отклонении может иметь один и тот же знак, и тогда возникают экстремальные значения. Это явление отражено в колоколообразном виде нор
мального распределения.
Логнормальное распределение может возникнуть при тех же обстоятельствах, если случайные воздействия не аддитивны,
108
а мультипликативны. Большинство случайных возмущений, пе ремноженных вместе, дают промежуточное значение произведе ния, близкое к геометрическому среднему. В редких случаях при случайном выборе все возмущения могут оказаться очень малыми, и нх произведение будет близко нулю. Так же редко все возмущения могут оказаться большими, и их произведение будет экстремально большим значением. Результатом многих случайных реализаций будет распределение, которое начина ется в нуле и возрастает до своего максимума, и затем спуска ется вниз, достигая экстремально больших значений.
Биологи часто ссылаются на «закон пропорционального эф фекта», состоящий в том, что изменение переменной в течение процесса есть случайная величина, пропорциональная исходно му значению этой переменной. Например, вероятность измене ния размера колоний микробов во временной промежуток про порциональна размеру колоний в предшествующий отрезок вре мени. Большие колонии стремятся расшириться (или умень шиться) в большей степени, чем малые колонии. Возможно, нефтяные месторождения формировались таким же образом, так что в течение миграции углеводородов большие скопления стремились увеличиться с пропорционально большей ско ростью, чем это происходило с малыми скоплениями. Такие процессы подчиняются логнормальному распределению.
Геологи, возможно, менее знакомы с «теорией дробления», которая предсказала заранее и объяснила логнормальное рас пределение для размеров частиц, которые наблюдаются в ес тественных осадках и в измельченном материале, производимом мельницами и дробилками. Предположим, что взят набор час тиц одинакового размера и затем каждая из них разделена случайным образом. В общем случае в результате один из об ломков каждой исходной частицы будет больше, другой — мень ше. Если затем каждый из этих обломков снова раздробить случайным образом, то из малых кусков получатся еще мень шие, в то время как каждый большой обломок даст снова боль ший и меньший куски. Если этот процесс повторять снова п снова, то в результате получим очень большое число очень ма лых частиц и немного «избранных» зерен, размеры которых близки к исходным размерам частиц. Другими словами логнор мальное распределение часто наблюдается при изучении осадков.
Другие преобразования
Для получения приблизительно нормального распределения можно над переменной X произвести также некоторые другие лоеобразования, которые преобразуют дисперсию к более при
109
емлемому виду или дадут некоторые другие статистические по лезные результаты. Хотя ничего не было сказано об исходной шкале измерения, но мы должны чувствовать себя свободными в случае, если окажется полезным изменить ее. Однако следу ет постоянно помнить, что наш статистический анализ имеет целью проверку различных статистических гипотез, которые могут иметь место для характеристик преобразованных пере менных и не обязательно справедливых для исходных перемен ных. Конечно, следует позаботиться о том, чтобы используемые преобразования не были настолько экзотическими, чтобы за ними терялась природа исходных переменных, свойства которых исследуются.
Если наши данные представляют собой, например, число про дуктивных скважин в регионе или число зерен циркона в шли фе, эти числа могут подчиняться распределению Пуассона. Вместо того чтобы считать эти данные дискретными, удобнее привести их к приблизительно нормальному виду, извлекая из них квадратный корень, т. е. каждое значение Xt заменяется на
К=У % - Это преобразование сделает дисперсии более однород ными и приведет к сокращению длинного хвоста пуассоновско го распределения. Если наблюдаемые значения X, меньше, чем примерно 10, то удобнее использовать преобразование У;=
= ]/Х;+1/2, особенно в тех случаях, когда некоторые наблюдения равны нулю.
Робинсон [28] рекомендует использовать степенное преоб разование, например У,= ХД Уг= Х г-3 и так далее, при выявлении петрофизических свойств, по данным каротажа в скважинах. Возведение в степень приводит к большему увеличению боль ших значений, чем малых. Если возведение в степень приме нять после изменения масштаба так, что множество значений (Y max' УтIn) будет таким же, как и множество значений исход ных переменных {Хтгх—Xmin), то эффект будет заключаться в том, что на каротажных диаграммах будут подчеркиваться области высоких значений и подавляться участки, где значения низки. Степенное преобразование имеет такое же влияние на распределение данных и может быть использовано для исправ ления отрицательной асимметрии. Однако оно может также привести к увеличению дисперсии и сделать ее неоднородной.
Отрицательно асимметричное распределение иногда может быть приближенно преобразовано в нормальное, если приме нить преобразование y, = arcsin X;. При этом исходные перемен ные должны быть предварительно преобразованы в числа в пределах интервала (0,00—1,00). Другое преобразование аркси нуса, описанное в гл. 4, можно использовать для преобразова ния биноминального распределения в нормальное.
НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ
Все предыдущие статистические методы являются парамет рическими, т. е. они основаны на характеристиках распределе ний, параметры которых известны. Все используемые критерии (t, F и у2) строятся для выборок из нормальных совокупностей.
Для |
обоснования возможности использования этих |
критериев |
в тех |
случаях, когда исследуемая совокупность не |
является |
нормальной, при условии, что объем выборки велик н совокуп ность не очень сильно отличается от нормальной, следует обра титься к центральной предельной теореме. Иногда, однако, ис следуемая совокупность может сильно отличаться от нормаль ной, или же объем выборки нельзя увеличить. В таких случаях следует обратиться к категории критериев, называемых непара метрическими статистическими критериями. Их можно приме нять для обработки информации более низких шкал, таких, как номинальные и порядковые данные, в отличие от метрических данных, используемых в параметрической статистике. Не тре
буется |
никаких допущений о виде исходного распределения, |
отсюда |
и название — непараметрические критерии. Вообще, |
в тех случаях, когда выборочная совокупность имеет характери стики, необходимые в параметрическом анализе, непараметрнческие критерии оказываются менее мощными, чем эквивалент ные параметрические. Однако если выборочная совокупность не имеет специфических характеристик, непараметрические ме тоды оказываются более мощными.
Непараметрические критерии в геологии широко не исполь зовались и обычно не приводятся в элементарных учебниках статистики. Однако есть много прекрасных книг, в которых опи саны непараметрические эквиваленты параметрических про цедур, уже рассмотренных нами. Среди них можно назвать книги Зигеля [30], Бредли [4] и Коновера [8] и др.
Критерий Манна — Уитни
Критерий Манна — Уитни можно использовать как непараметрическнй эквивалент ^-критерия для проверки гипотезы о равенстве средних двух выборок. Предположим, что мы имеем две выборки объема т и п и хотим проверить гипотезу о том, что они являются выборками из одной и той же совокупности. Объединим обе выборки и расположим значения наблюдений в порядке возрастания от меньшего к большему. Каждому наблюдению припишем его ранг, т. е. наименьшему значению припишем ранг I, следующему по величине — ранг 2 и так да
лее, до |
наибольшего наблюдения, которое будет иметь ранг |
(т + п). |
Если обе выборки были взяты из одной и той же сово- |
-купностп |
наудачу, то можно ожидать, что наблюдения одной |
|
Ш |