Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Игнатенко Статистическая оценка данных екологического мониторинга 2010.pdf
Скачиваний:
131
Добавлен:
16.08.2013
Размер:
2.09 Mб
Скачать

Воспользуемся сначала формулой (4.21) для определения минимальной базовой длиной участка на диаграмме t f0 =F/l, l – длина временного участка на диаграмме, на котором подсчитано число F пересечений с линией среднего значения. Всего на длине l = 18 мин оказалось 48 пересечений: F = 48. Отсюда f0 = 48/18 = = 8/3; t > 2 : (8 / 3) = 0,75 мин. Используя формулу (4.22), вычис-

лим необходимое время пассивного эксперимента (наблюдения). Величина ν выбрана 0,1 при условии попадания измерения в интервал от 20 до 100 В/м. Задавшись P = 0,95, получим

Т= 3,68 · 0,75/0,1 = 27,6 мин.

4.5.Статистический анализ уравнения регрессии

Дисперсия воспроизводимости. После того как уравнение по-

лучено, приступают к его статистическому анализу. При этом решают две основные задачи: оценивают значимость коэффициентов регрессии и проверяют адекватность математической модели. Для выполнения каждой из этих процедур необходимо иметь количественную оценку ошибок эксперимента в целом. Соответствующей характеристикой является дисперсия воспроизводимости, обозна-

чаемая через s2 {y} Рассмотрим способы ее вычисления в зависи-

мости от методики дублирования опытов.

1. Равномерное дублирование. Каждый из N запланированных опытов повторяется одинаковое число n раз, т.е. имеется N серий, в каждой из которых ставится n дублированных опытов.

Обозначим результаты опытов первой серии через y11, y12 ,..., y1n .

По ним можно рассчитать дисперсию первого опыта s12 :

s12 = (y11 y1 )2

+(y12 y1 )2 +... +(y1n y1 )2

 

(n 1)=

 

n

 

 

 

= (y1u y1 )2 (n 1),

 

 

 

u=1

 

 

где y1 – среднее по серии дублированных опытов, равное

77

n

y1 = (y11 + y12 +... + y1n )n = y1u n.

u=1

Аналогично рассчитываются средние y j и дисперсии s2j всех остальных опытов:

n

 

 

 

y j = y ju

 

n;

(4.23)

u=1

 

 

 

n

)

 

 

s2j = (y ju y j

(n 1);

(4.24)

u=1

 

 

 

j =1, 2, 3,..., N .

Отметим, что числа степеней свободы всех дисперсий одинаковы и равны п –1: f j = f = n 1. В качестве дисперсии воспроизво-

димости s2 {y} берется среднее арифметическое дисперсий опытов

s2 {y}= (s12 + s22 +... + sN2 )

N

 

N = s2j N.

(4.25)

 

j=1

 

Число степеней свободы fy этой дисперсии равно сумме чисел степеней свободы дисперсий опытов

N

 

fy = f j = N (n 1).

(4.26)

j=1

Необходимыми предпосылками статистического анализа являются нормальность распределения выходной величины и однородность дисперсии опытов. Проверка однородности дисперсий опытов при равномерном их дублировании проводится по критерию Кохрена (см. п. 1.7).

2.Неравномерное дублирование. Каждый j-й опыт повторяется

вэтом случае некоторое число пj раз. Как и в предыдущем случае,

вычисляются дисперсии первого, второго, j-го опытов: s12 , s22 ,..., sN2

– по формулам, аналогичным формуле (4.26), только вместо n здесь будет стоять пj:

n

(y ju y j )2 (n 1).

 

s2j = j

(4.27)

u=i

 

 

78

Числа степени свободы дисперсий различны: fj = nj 1. Дисперсия воспроизводимости для этого случая определяется по формуле

s2 {y} = (s12 f1 + s22 f2 +... + sN2 fN )( f1 + f2 +... + fN )=

N

N

(4.28)

= s2j f j

f j .

 

j=1

j=1

 

Если число степеней свободы равно fу = n1 1, то

 

y

 

N

 

j

 

N

 

j

)

 

f

=

f

=

(

n

(4.29)

 

 

 

 

 

1 .

 

 

 

j=1

 

 

 

j=1

 

 

 

 

Для проверки однородности дисперсий в данном случае необходимо воспользоваться критерием Бартлетта (см. п. 2.8).

3.Частный случай неравномерного дублирования, когда из N поставленных опытов дублируется только один, для определенно-

сти – первый с числом повторений n1 раз. Дисперсия, рассчитанная по этой серии, принимается за оценку дисперсии воспроизводимости с числом степеней свободы fy = n1 – 1.

4.Отсутствие дублированных опытов. Для оценки дисперсии воспроизводимости в этом случае приходится ставить отдельную серию дублированных опытов, если это возможно. Как и в предыдущем случае, дисперсия опытов этой серии служит оценкой дисперсии воспроизводимости с числом степеней свободы, равным

fy = n0 1, где n0 – число дублированных опытов в отдельной се-

рии.

Оценка точности, значимости коэффициентов регрессии и интерпретации результатов. Статистическую обработку проводят обычно для модели, записанной в нормализованных обозначениях факторов. Для определенности будем иметь в виду линейную модель, содержащую k факторов. После того, как уравнение регрессии получено и рассчитана дисперсия воспроизводимости, следует оценить точность, с которой найдены коэффициенты регрессии. Поскольку они вычислены по результатам эксперимента, а эти результаты являются случайными величинами, то случайными величинами будут и коэффициенты регрессии Вi. Поэтому в качестве

79

показателя точности поиска коэффициентов удобно взять его дис-

персию s2 {Bi } .

Изучим сначала случай отсутствия дублированных опытов в основном эксперименте.

Для получения дисперсий коэффициентов регрессии используют матрицу базисных функций Х. Рассмотрим матрицу (ХТХ)-1, элементы которой обозначим через cij. Это – квадратная матрица

размера (k +1)×(k +1), называемая ковариационной матрицей:

 

 

 

 

c

...

c

 

(X

T

X )

1

 

00

 

0k

 

 

 

= ...

... ...

.

 

 

 

 

c

k 0

...

c

 

 

 

 

 

 

 

kk

 

Умножим каждый ее элемент на оценку дисперсии воспроизводимости s2 {y} . Можно показать, что полученная матрица имеет вид

 

 

 

s2

{b

}

 

cov{b b

} ...

cov{b b

}

 

 

 

 

 

0

 

}

0

1

 

0

k

 

 

(X T X )

1

cov{b b

s2 {b

}

...

cov{b b

}

(4.30)

 

s2 {y}=

 

1

0

 

1

 

...

1

k

.

 

 

 

 

...

 

 

...

 

...

 

 

 

 

 

cov

{b b

}

cov{b b

} ...

s2 {b

}

 

 

 

 

 

 

k

0

 

k

1

 

k

 

 

 

Следовательно, s2 {bi } = cii s2 {y} .

По главной диагонали матрицы (4.30) стоят дисперсии коэффициентов регрессии, а недиагональные элементы – это ковариации между коэффициентами регрессии. Ковариация, так же как и коэффициент корреляции, является мерой линейной статистической связи между двумя случайными величинами. Оценка ковариации двух случайных величин x и y, принимающих в однородной серии из n опытов значения х1, у1, х2, у2, ..., хпуп, равна

k

cov{x, y}= (xi x)(yi y) (n 1).

i=1

Легко заметить, что числитель формулы совпадает с числителем формулы для выборочного коэффициента корреляции (см. (1.26)). Поэтому аналогично коэффициенту корреляции ковариация между

80

независимыми случайными величинами равна нулю. Таким образом, для отыскания дисперсии коэффициентов регрессии требуется проделать сложные матричные преобразования.

Перейдем к случаю дублирования опытов. Матрицу Х будем формировать, учитывая только основные опыты; тогда каждая ее строка будет содержать условия проведения серии дублированных опытов.

Рассмотрим отдельно случай равномерного дублирования. Для получения оценок дисперсий и ковариаций коэффициентов регрес-

сии следует каждый элемент матрицы (X T PX )1 s2 {y} (см. фор-

мулу (4.30)) разделить на число n дублированных опытов. Если дублирование неравномерное, то оценки дисперсий и ковариаций коэффициентов регрессии являются элементами матрицы

(X T PX )1 s2 {y}, где Р – матрица дублирования.

Для большинства планов, рекомендуемых теорией эксперимента, существуют простые формулы для отыскания дисперсий коэффициентов регрессии, их дисперсий и ковариаций между ними. Более того, ряд таких планов составлен исходя из требования равенства нулю ковариаций между коэффициентами регрессии. Это так называемые ортогональные планы, к которым относятся, в частности, полный и дробный факторные планы. При ортогональном планировании отбрасывание незначимых коэффициентов регрессии не приводит к изменению оценок остальных коэффициентов.

После того как найдены дисперсии коэффициентов регрессии, следует выявить незначимые коэффициенты, т.е. те, которые в математической модели можно приравнять нулю. Для этого используется t-критерий Стьюдента. Для каждого коэффициента регрессии bi отыскивается t-отношение:

ti =

 

bi

 

s{bi }.

(4.31)

 

 

Можно анализировать значимость коэффициентов регрессии по уравнению с натуральными факторами. В этом случае

ti = Bi s{Bi }. В обеих формулах в числителе стоит абсолютная

величина коэффициента регрессии, в знаменателе – его эмпирический стандарт – корень квадратный из дисперсии. Вычисленную

81

величину ti сравнивают с табличным значением tтабл t-критерия Стьюдента (см. табл. 1.1) для заданного уровня значимости q и числа степеней свободы fy, с которым определялась дисперсия вос-

производимости s2 {y} . Если ti < t табл, то коэффициент регрессии bi

незначим и соответствующий член в уравнении регрессии должен быть отброшен. С учетом (4.31) условие того, что коэффициент регрессии незначим, можно записать в более удобном виде:

| bi |s{bi } tтабл .

(4.32)

При отбрасывании незначимых членов возникает определенное неудобство, связанное со статистической зависимостью коэффициентов регрессии. Эта зависимость проявляется в том, что после того как незначимые коэффициенты регрессии приравняли нулю, оценки остальных коэффициентов регрессии изменяются. Практический вывод: после отбрасывания незначимых коэффициентов регрессии желательно снова воспользоваться МНК для уточнения оставшихся значимых коэффициентов регрессии.

С помощью t-критерия можно найти и доверительный интервал для произвольного коэффициента регрессии bi. Обозначим истинную величину этого коэффициента через βi. Тогда

bi tтаблs{bi } bi +tтаблs{bi }.

(4.33)

Даже простейшая линейная модель позволяет получить важную информацию об объекте исследования. Запишем ее в нормализованных обозначениях факторов

y =b0 +b1x1 +b2 x2 +... +bk xk .

(4.34)

Коэффициенты этой математической модели имеют четкий физический смысл. Коэффициент b0 равен значению выходной величины, рассчитанному по уравнению регрессии, если все факторы зафиксированы на основном уровне, т.е. в середине диапазона варьирования. Знак коэффициента bi свидетельствует о характере влияния соответствующего фактора. Если bi > 0, то с ростом значения фактора Хi выходная величина растет. Если bi < 0, то с ростом Хi выходная величина уменьшается. Величина bi равна приросту выходной величины, полученному при увеличении значения фак-

82

тора Хi на половину диапазона его варьирования, например, с основного уровня (Xi = Xi0 ) до верхнего уровня (Xi = Xi1 ).

Как уже указывалось, из вида модели (4.34) следует, что графиком зависимости величины y от любого фактора Хi является прямая. Рассмотрение зависимостей выходной величины y от этого фактора при разных фиксированных значениях других факторов позволит получить семейство прямых, причем все эти прямые будут параллельны. Это связано с тем, что представление регрессионной модели в линейном виде (4.34) предполагает отсутствие взаимодействий факторов (см. п. 3.1).

Чем больше абсолютная величина линейного коэффициента регрессии в модели (4.34), тем сильнее влияние соответствующего

фактора. Если, например, оказалось, что b3 > b1 , то можно сделать

вывод о том, что изменение фактора Х3 в пределах его диапазона варьирования оказывает большее влияние на изменение отклика, чем варьирование фактора Х1 в его диапазоне. Таким образом, с помощью линейной регрессионной модели можно сравнить степень влияния факторов на выходную величину и выявить важнейшие факторы.

Если уравнение регрессии отличается от линейного вида, то степень влияния фактора может изменяться от начала к концу диапазона варьирования и зависит от уровней варьирования других факторов.

Проверка адекватности регрессионной модели. Регрессион-

ная модель, построенная по результатам эксперимента, позволяет рассчитать значения отклика в разных точках области варьирования факторов. Для этого в уравнение регрессии подставляют соответствующие значения варьируемых факторов. Проверка адекватности математической модели дает возможность экспериментатору ответить на вопрос, будет ли построенная модель предсказывать значения выходной величины с той точностью, что и результаты эксперимента.

Пусть N – число опытов экспериментального плана или число серий параллельных опытов, если опыты дублируются; p – число оцениваемых коэффициентов регрессии математической модели.

83

Проверка адекватности возможна только при N > p, т.е. если план эксперимента является ненасыщенным. Для проверки адекватности модели необходимо знать оценку дисперсии воспроизводимости

s2 {y} , которую можно вычислить в зависимости от методики дуб-

лирования опытов по одной из формул, приведенных в п. 3.5. Порядок проверки адекватности модели.

1. Определяют сумму квадратов, характеризующую адекватность модели S. При равномерном дублировании ее рассчитывают по формуле

Sад = n (

 

1 1 )2

+(

 

2 y2 )+

... +(

 

N yN )2

 

=

y

y

y

 

 

 

 

 

 

 

 

 

(4.35)

 

 

 

N

2

 

 

 

 

 

 

= n(yi yi )

 

= n.

 

 

j=1

Здесь n – число дублированных опытов в каждой серии; уj – среднее значение результатов эксперимента в j-й серии дублированных опытов, j = 1, 2, 3,..., N; y*j – значение выходной величины,

рассчитанное по уравнению регрессии для j-го основного опыта. В случае неравномерного дублирования средняя дисперсия

 

 

N

2

 

 

 

(y j

y

)

 

 

s2

=

j=1

 

,

 

 

 

N 1

 

 

 

 

 

 

где nj число дублированных опытов в j-й серии. При отсутствии дублирования опытов

N 2

S= (y j y j ) ,

j=1

(4.36)

(4.37)

где yj результат j-го опыта.

2. Вычисляют число степеней свободы fад дисперсии адекватности. При любой методике дублирования опытов оно равно

fад = N – p. (4.38) 3. Вычисляют дисперсию адекватности

s2

= s

f

.

(4.39)

 

 

 

 

84

4. С помощью критерия Фишера F проверяют однородность дисперсии адекватности sад2 и дисперсии воспроизводимости

s2 {y} . При этом вычисляют значение критерия Фишера

Fрасч = s2

s2 {y},

(4.40)

 

 

которое сравнивают с табличным значением критерия Фишера, найденным при выбранном уровне значимости q для чисел степе-

ней свободы fад в числителе и fу в знаменателе. Если Fрасч < Fтабл, то модель считается адекватной и может быть использована для опи-

сания объекта. В противном случае модель неадекватна. Рассмотренный метод проверки адекватности модели имеет

простой физический смысл. В основе этой процедуры лежит проверка гипотезы об однородности дисперсии адекватности и дисперсии, характеризующей ошибку эксперимента.

Заметим, что дисперсия адекватности характеризует расхождение между результатами эксперимента yj и значениями выходной

величины y*j , вычисленными по уравнению регрессии. Логично

принять, что модель удовлетворительно описывает объект исследования, т.е. является адекватной, если указанное расхождение вызвано только экспериментальными ошибками, а не связано, например, с неудачным выбором вида математической модели. Проверка гипотезы об однородности рассматриваемых дисперсий и выясняет «общность происхождения» экспериментальных ошибок и

расхождения между yj и y*j .

Кроме проверки адекватности модели можно оценить ее эффективность, информационную ценность. При отсутствии дублированных опытов эффективность регрессионной модели оценивают следующим образом.

1. Вычисляют дисперсию относительно среднего значения отклика

N

 

sc2р = (y j

 

)2 (N 1),

(4.41)

y

j=1

 

N

где y – среднее значение отклика по всем опытам: y = yi N.

j=1

85

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]