Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Статистический анализ данных в геологии. Кн. 1

.pdf
Скачиваний:
6
Добавлен:
12.11.2023
Размер:
14.63 Mб
Скачать

 

 

 

Т а б л и ц а 4.14

Значения влажности осадков из второй скважины

Глубиии, футы

Влажность (граммы

Глубина, футы

Влажность (граммы

воды/100 г сухого

воды/100 г сухого

 

осадка)

1

осадка)

0

137

20

28

5

84

25

24

10

50

30

23

15

32

35

20

Данные табл.

4.11 можно

объединить вместе с данными

табл. 4.14, после чего построить уравнение регрессии по всем наблюдениям. Вычисления величин S S T, SS R и SSD проводятся так же, как и раньше, только теперь число наблюдений удвои­ лось. Так как сейчас у нас в распоряжении имеются новые наблюдения, мы можем подсчитать сумму квадратов, возни­ кающую из-за недостаточной точности аппроксимации (5 5 ^), и сумму квадратов, соответствующую «чистой» случайной ком­ поненте (SS PE), которые разбивают сумму квадратов отклоне­ ний на две части. В случае пар повторных наблюдений мы мо­ жем найти величину по формуле

П

 

SSPE -1 /2 2 (У и - У |2)г.

(4.27)

/=1

 

Эта величина имеет одну степень свободы для каждой точ­ ки, а остаточная сумма квадратов S S LF находится путем вычи­ тания, так же как и ее число степеней свободы

55 LF = SSDSSPE.

(4.28)

Совсем не обязательно, чтобы мы проводили дублирующие

измерения в каждой точке, но если это сделать,

то анализ

удастся осуществить более точно. Можно также использовать более двух повторений Г, для каждого значения X,, при этом вычисление величины SSPE становится несколько более слож­ ным. Эти и другие усовершенствования описаны в книгах по регрессионному анализу Ли [35], Дрейпера и Смита [17], и мы не будем останавливаться на них более подробно.

Схема модифицированного дисперсионного анализа приве­ дена в табл. 4.15. Используя объединенные данные по двум скважинам, выполните дисперсионный анализ и вычислите SS PE и SS LF. Среднее значение суммы квадратов SSPE является оценкой для а2г-х, т. е. дисперсии относительно линии регрессии. Оно находится по формуле

MS рЕ = SSPEIK

(4.29)

212

Т а б л и ц а 4.15 Дисперсионный анализ в случае простой линейной регрессии с повторением.

Число наблюдений Yt равно п; число точек,

в которых сделаны повторные измерения, равно k

Источник изменчивости

Сумма квад­

Число степе­

Средние

^-критерий

ратов

ней свободы

квадраты

Линейная регрессия

ss*

i

MS*

M S RJMSD*

Отклонение

SSo

п 2

M S D

M S LFIMSpe6

Недостаток точности

S S L F

(п—2)—Jfe

M S LF

Чистая случайная

SSpE

k

MS PE

 

компонента

SSr

п1

 

 

Обшая дисперсия

 

 

а Критерии качества приближения. ®Критерии соответствия модели.

где k — число точек, в которых проведены повторные измере­ ния. В нашем случае мы сделали это для всех точек, и поэто­ му k равно л/2, так как половина наблюдений Y-, дублирована.

Мы

отмечали,

что величина S S D является

мерой дисперсии во­

круг

регрессии

плюс некоторое смещение,

которое может воз­

никнуть из-за выбора неподходящей модели, и поэтому сред­ нее значение квадратов S S LF является оценкой только этого смещения. Мы можем провести проверку пригодности модели, вычисляя значение

F = M S LFI ( M S PE) .

(4.30)

Если вычисленное значение критерия попадает в критиче­ скую область, то мы должны сделать вывод, что построенная модель не отвечает действительности. Если проверка не приво­ дит к отклонению модели, то обе оценки дисперсий можно сло­ жить и оценить качество аппроксимации, как мы делали это раньше. Вычислите F-отношение и дополни­ те табл. 4.15, а затем определите, является ли эта простая ли­ нейная модель достаточно хорошей. На рис. 4.17 изображены четыре возможные ситуации для двух характеристик, одна из которых — соответствие модели, а вторая — качество аппрокси­ мации.

Нелинейная регрессия

После вычисления F-критерия для проверки соответствия модели выборочным данным вы можете прийти к выводу, что прямая линия неадекватно представляет выборку. Что делать после этого, зависит от предмета исследования и от ваших зна­ ний или догадок о соотношении между переменными X и Y.

213

if a

1/

6

У

X

X

я — существенная линейная регрессия и точность аппроксимации удовлетворительная: б —• отсугстзие линейной регрессии при удовлетворительной точности аппроксимации;* а — существенная линейная регрессия и значимый недостаток точности аппроксимации; г _ отсутствие линейной регрессии и значимый недостаток точности зппроксим:; „ч;*

Иногда можно иметь вполне определенное мнение о ошзи пе­ ременных. Например, если самолет сбрасывает бомбу, . . пре­ небрегая сопротивлением ветра, мы можем предсказать ч- тео­ ретическую траекторию, которая определяется скорость!., еамоле:а и направленным вниз ускорением свободного п-. тения (рис. 4.16); действительно, парабола очень хорошо опшываег траекторию падения бомбы. С другой стороны, мы можем ни­ чего не знать о зависимое™ между двумя переменными X и У (ее может и не существовать) и просто хотим получить выра­ жение одной ню них через другую. Обычно паши задачи нахо­ дятся между этими двумя крайними случаями: мы предполага­ ем наличие причинной связи, но не знаем ее формы. В послед­ них двух случаях мы можем подобрать аппроксимирующее уравнение к имеющимся данным з надежде, чго оно поможет

нам

прояснить существующие

соотношения или

же точно опи­

сать форму зависимости переменных X и У. Такие уравнения

выбираются потому, что с их

помощью удается

аппроксимиро­

в а т ь

многие классы функций,

п используются

в тех случаях,

когда истинный вид функции неизвестен.

Возможны различные типы аппроксимирующих функций, но чаще всего используется полиномиальная аппроксимация, за­

ключающаяся в том, что в качестве

приближающей

функции

выбирается сумма целых степеней независимой переменной:

Yt = bo. + biXi * b2Xi2 + №

+ bmXim. . . .Ч

- ( 4 .3 1 )

214

Рис, 4.18. Теоретическая траектория падения бомбы, сброшенной с само­ лета

Уравнение, в котором все переменные суммируются, называ­ ется линейным, так как соотношения между всеми парами име­ ют своими графиками прямые линии. Расширение первона­ чального уравнения с помощью добавления следующих степе­ нен приводит к тому, что график начинает искривляться. Один дополнительный член заставляет прямую изменить наклон, вто­ рой дополнительный член приводит к возникновению двух то­ чек перегиба и т. д. Увеличивающаяся искривленность позво­ ляет линии более точно подходить к исходным данным. Дей­ ствительно, если число дополнительных членов достигнет {п—1), то линия пройдет точно через каждую данную точку. Однако в построении такой линии мало смысла, так как она не является более эффективной, чем сами исходные данные. Кроме того, наиболее важную информацию о данном массиве можно сохранить с использованием лишь нескольких членов в поли­ номиальном уравнении. На рис. 4.19 изображены различные типы полиномиальных зависимостей, соответствующих различ­ ным степеням аргумента. Максимальная степень, использован­ ная в полиномиальном уравнении, называется степенью уравне­ ния, т. е.

Yi — bо + b]Xi + 62У12 + b^Xi3

— полиномиальное уравнение третьей степени. Такова же сте­ пень уравнения К(=ЬХ«3, так как оно является частным случа­ ем предыдущего при Ь0, Ь\ и Ь%, равных нулю. Полиномиальное уравнение строится по наблюдениям с помощью метода наи­ меньших квадратов, а процесс этого построения называется подбором кривой.

При выполнении некоторых статистических условий качест­ во аппроксимации и ее значимость могут быть проверены с по­ мощью регрессионных методов, аналогичных уже рассмотрен­ ным. Эти статистические процедуры являются составной частью так называемого нелинейного регрессионного анализа.

Чтобы аппроксимировать данные кривой второго порядка (или квадратичной кривой), нужно составить нормальные урав-

215

Рис. 4.19. Кривые полиномиальной регрессии для возрастающих степеней пе­ ременной X:

о — прямая линия, соответствующая многочлену первой степени; б — квадратическая кри­ вая или кривая вюрой степени; а — кубическая кривая или кривая третьей степени; а — кривая четвертой степени

нения с включением дополнительных членов. Два нормальных уравнения (4.13) и (4.14) превращаются в совокупность трех уравнений:

2 У = Ь 0п + Ь Ш + Ь 2Ы 2,

 

ЪХУ =

boZX +

b ^ X 2 + b2ZX3,

(4.32)

2ЛГ2 Y =

ЬоЪХ2 +

6,SX3 +. b2ZX \

 

Подразумевается, что суммирование выполняется по всем наблюдениям от 1 до п. Переписав их в матричной форме, по­

лучаем

 

 

. х

'

п Ъ Х Ъ Х 2

~ Ьо '

2У ■

 

Ъ Х Ъ Х 21 ' Х г Ь\ = Z X Y

. Ъ Х * Ъ Х ' Ъ Х * -

- Ьг .

. 2 Х 2У.

816

Это матричное уравнение можно решить, используя процедуру матричной алгебры, приведенную в гл. 3. Заметим, что в эту систему входят высокие степени независимой переменной. Самая высокая степень, используемая в матрице, равна удвоен­ ной степени полинома, который мы хотим подобрать к изучае­ мым данным. Это обстоятельство является главным источником ошибок в вычислительных программах полиномиальной аппро­ ксимации, так как элементы правого нижнего угла матрицы ко­ эффициентов могут на много порядков превышать величину элементов левого верхнего угла матрицы. Это может привести к большим ошибкам округления и потере значимости в сущест­ венных цифрах, результатом чего будут неустойчивые или не­ надежные решения системы уравнений. Подобное рассмотрение этих >..дач содержится в книге Уэстлейка [59].

Структура матрицы коэффициентов станет очевидной, если мы используем переменную А'0, которая равна 1 для всех наб­ людений А',. Мы можем занумеровать все строки и столбцы мат­ ричною уравнения следующим образом;

А° А ’ А2 А3 ... А'"

Ь

Y

А°

 

 

X 1

 

 

А2

 

(4.34)

А3

 

 

 

Х т

 

 

Элементы матрицы коэффициентов, а также столбцов коэф­ фициентов b и правых частей У являются суммами смешанных произведении элементов строк и столбцов с заданными номе­ рами. ■1Имея в виду значение А0, мы определяем элемент А и

как 1’ 1• 1=п, другие элементы верхней строки получаются ум­

ножением 1 на

соответствующий

столбец. Например, эле­

мент ,-1г, матрицы

равен 2А_3-А2 =2А5. Напомним, что при умно­

жении

.показатели

степени складываются, т. е. Ха-Хь = Ха+ь.

Для

иллюстрации вычислений,

используемых при построе­

нии \р,-внения нелинейной регрессии, проанализируем совмест­ но данные таблиц 4.11 и 4.14. Построим квадратичную аппро­ ксимацию, что позволит нам убедиться в том, что повышение степени приводит к значительному улучшению качества аппрок­ симации. Полиномиальная кривая второй степени, подобранная к этим данным, изображена на рис. 4.20. В данном случае уравнение регрессии имеет следующий вид;

Yi = Ро + Р А + № = 122,9 - 7,9 Xt + 0.1АД .

217

Рис. 4.20. Кривая полиномиальной ре­ грессии второй степени, полученная по замерам влажности, взятым из таблиц 4.11 и 4.14

В этом примере необходимые для выполнения дисперсионно­ го анализа статистики принимают следующие значения:

5 5 г = 21363,0;

55* = 20673,2;

S S D-

689,8;

SSPE = 126,0;

V?2

= 0,97;

R = 0,98.

Легко убедиться, что значения S S r и SSPE такие же, как и в случае линейной аппроксимации, так как они не содержат оце­

нок величин У. Как можно было ожидать, более гибкая квадра­ тичная кривая ближе подходит к наблюдаемым данным, чем прямая линия. Сумма квадратов отклонений относительно ли­ нии регрессии уменьшилась с 5177,8 до 689,8. Это большое уменьшение, по эта разница не всегда бывает столь значи­ тельна. Таблицу дисперсионного анализа можно снова расши­ рить для проверки этой характеристики (табл. 4.16).

Как можно увидеть из этой таблицы, сумма квадратов по­ лучается в результате вычитания суммы квадратов д л я линей­ ной функции S3'/а из аналогичной суммы квадратов для квад­ ратичной функции 55^2. Эта новая сумма квадратов является мерой улучшения качества аппроксимации в результате введе­ ния дополнительного члена в уравнение регрессии. В к р и т е р и и

«б» (см. табл. 4.16) эта

величина, которая

обозначена

через

552- ь используется для

оценки дополнительной дисперсии в

регрессии. Ее значимость проверяется точно

таким же

обра­

зом, как и для самого уравнения регрессии. Если окончатель­ ное значение Е-критерия попадает в критическую область, то

218

 

 

 

 

 

 

 

 

 

Т а б л и ц а 4.16

 

Дисперсионный анализ для определения значимости

 

 

дополнительных

членов в нелинейной регрессии

Исто ПО'*-

«М С Н ЧЛ В О .-ТЯ

 

Сумма квад­

Число сто-

Средние

) -критерий

 

ратов

 

пенс/4 с во *

квадрат ы

 

 

 

 

 

 

 

(>ОДЫ

 

 

Линейная регрессия

 

SS*,

 

1

M S *,

 

сия

1мая

регрес­

 

S S R 2

2

2

M S M I M S D R ' »

 

 

 

 

 

 

 

 

 

Г з ; 1 Д р ; ! | ч ‘;-[ое

д о п о л -

S S 2I

1

M S 2_,

M S 2_ IAU.SD2(B>

К я а д р . г : [Г’гос

о г к л о -

[

S S D 2

П‘3

MSn%

 

м е и и е

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j

п 1

I

 

{>Сш;>ч чи-ыерсия

 

S S r

i

 

|v 11111' j >11 iI

л и г и } - о

in

для

кьадрапышого npiio.4 инсет!ии.

 

-Ч>-и; * puli

значимости

для

проверки

увеличении

качества квадратичной аппрокси-

у . .Mini л л

т р л ш г е н й ю с л и н е й н о й .

 

 

 

 

 

доЗаьо*!uufi член дает существенный вклад в регрессию и его ^лел'ст сохранить. Если же полученное значение несуществен­ но, то дополнительный член не дает значимого вклада в регрес­ сию Необходимо отметить, что критерии «а» может быть су­ щее, венным, в то время как критерий «б» таким не является. Это происходит потому, что критерии «а» предназначен для '.•рочер,-'-! гипотезы о равенстве нулю комбинации линейных и

<.ва :)...;ичиых

членов. При этом линейная часть может ока-

.п ьс я высоко

значимой, в то время как вклад квадратичного

слепа бхлет очень низким. Тогда значение критерия «а» будет супксiьенным благодаря значительному влиянию одного лн- (ICTHCMI члена. Иногда может оказаться, что значимыми явля­

ете-:

iitf-o один из двух, либо оба члена, либо ни один из двух

членов не является значимым.

г ьпголь

уже мог заметить, что корреляционная зависи­

мое:!

всегда

увеличивается

при добавлении новых членов по­

линома Е с л и

ч и с л о членов

полинома достигает (п—I), то ко­

эффициент корреляции становится равным 1,00 независимо от степени разброса данных точек. Однако приведенные выше кри­ терии показывают, что увеличение коэффициента корреляции не имеет статистических оснований. При этом если средние значе­ ния квадратов отклонений увеличиваются, то /•’-отношение, ха-

219

рактеризующее значимость аппроксимации, уменьшается. Оцен­ ка дисперсии частично зависит от числа наблюдении, исполь­ зованных для ее вычисления, или от числа степеней свободы. Последнее постоянно уменьшается по мере увеличения числа коэффициентов в уравнении регрессии. Напомним (см. гл. 2), что мы теряем в точности на каждом оцениваемом параметре одну степень свободы и что коэффициенты b полиномиального уравнения являются оценками коэффициентов регрессии £>.

При выполнении определенных статистических требований процедуру проверки гипотезы о незначимости добавляемых чле­ нов можно распространить на члены более высоких степеней в уравнении полиномиальной регрессии. Если получение допол­ нительных наблюдений реально, то эти критерии можно ис­ пользовать в комбинации с критерием проверки отсутствия при­ ближения или критерием чисто случайной компоненты. В табл. 4.17 приведена дополнительная схема дисперсионного анализа для квадратичной регрессии и объединенной зыборки значений влажности осадка.

В некоторых случаях нас может интересовать не только по­ лучение оценок в заданных точках или отклонения от линии регрессии, но и ее наклон и значение, при котором этот наклон

изменяется.

В качестве примера задачи

такого

типа мы

рас-

 

 

 

 

 

Т а б л и ц а

4.17

Результаты дисперсионного анализа для определения значимости

 

квадратичной регрессии содержания воды в осадке и глубины

 

Источник изменчивости

Сумма квад­

Число сте­

Средние

/"•критерий

ратов

пеней сво­

квадраты

 

 

 

боды

 

 

 

Линейная регрессия

16 185,19

1

16 185,19

 

 

Квадратичная

регрес­

20 673,24

2

10 336,62

MS#2

 

MSD2

 

сия

 

 

 

 

 

Квадратичное

допол­

4 488,05

1

4 488,05

MSz-1

 

MSj)2

 

нение

 

 

 

 

 

Квадратичное

откло­

689,76

13

45,37

 

 

нение

 

 

 

 

 

 

Общая дисперсия

21 363,00

15

 

 

 

а Квадратичная регрессия высоко значима.

®Квадратичная регрессия приводит к значительному улучшению качества аппрок­ симации по сравнению с линейной регрессией.

220

смотрим стратиграфическую последовательность по скважине, пробуренной в породах нижнего палеозоя в восточной части Оклахомы. Целью геологического исследования являлось вос­ становление условий, существовавших во время формирования отложений. Изученная толща состоит из слоев алевролита и песчаника, относительно которых допускалось, что они имеют морское происхождение. Геологами было сделано предположе­ ние, что осадочный бассейн постепенно наполнялся, и, по мере того как береговая линия продвигалась по направлению к мес­ тоположению скважины, мощность последовательно образовав­ шихся слоев песчаника увеличивалась. Толща насчитывала ты­ сячи слоев и было бы крайне обременительно измерять каждый из них. Вместо этого была измерена мощность каждого слоя песчаника через интервал в 10 футов (3 м). Эти измерения приведены в табл. 4.18. Геологу интересно знать, существует ли зависимость между мощностью отдельного слоя и общей мощностью накопленного осадка. Отметим, что суммарная мощность X измеряется в фиксированных точках, а мощность индивидуальных слоев рассматривается как случайная величи-

Таблица 4.18

Мощность слоев песчаника в кластических отложениях нижнего палеозоя в Оклахоме

Интервал ,Y, футы

Мощность У. Д Ю Й М Ы

Интервал .Y, футы

Мощность У. дюймы

ю

9,2

260

8,5

20

7 ,1

270

8,9

30

5,9

280

10,7

40

3,7

290

14,4

50

6,2

300

15,2

60

4 ,1

310

12, 1

70

3.9

320

15,3

80

5,0

330

9,0

90

4,4

340

11,2

100

6,8

350

8,9

ПО

5,9

360

9,0

120

6,1

370

6,5

130

7,7

380

11,0

140

7,0

390

13,9

150

5,5

400

9,1

160

9,8

410

11,2

170

6,9

420

17,3

180

5,2

430

15,8

190

6,8

440

11,1

200

8,5

450

11,8

210

7,1

460

18,9

220

10,4

470

9,6

230

6,7

480

17,9

240

8,6

490

12,8

250

6,4

500

15,0

221

Соседние файлы в папке книги