Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Игнатенко Статистическая оценка данных екологического мониторинга 2010.pdf
Скачиваний:
131
Добавлен:
16.08.2013
Размер:
2.09 Mб
Скачать

жать этого явления не удается, то его желательно учитывать как особый фактор.

Таким образом, единичный опыт не может дать точного представления о связи изучаемого явления с вызвавшими его обстоятельствами. Вот почему при большем количестве сделанных наблюдений результат будет более надежным. Исследователь вследствие указанных причин анализирует множество результатов наблюдений. И от того, насколько правильно будут обработаны эти результаты, зависит объективность, точность и надежность определения истинного значения измеряемой характеристики и, следовательно, правильность всех дальнейших заключений и выводов. Отсюда логически вытекает необходимость в научном подходе к обработке результатов опытов, который составляет предмет изучения математической статистики.

Математическая статистика – это наука о математических методах обработки, систематизации и использовании результатов наблюдений для научных и практических выводов. Роль математической статистики в экологическом мониторинге особенно велика, так как результаты наблюдения определяют гарантии жизнеобеспечения на настоящий и будущие (при прогнозировании) моменты времени.

Рассматриваемые в данном разделе простые статистические процедуры широко применяются при обработке данных экологического мониторинга (см.приложение 1). Они могут представлять самостоятельный интерес при решении конкретных задач и, кроме того, входят в комплекс методов, используемых при статистической обработке результатов многофакторных экспериментов.

1.2. Статистические оценки результатов наблюдений

Множество значений случайной величины, полученных в результате эксперимента или наблюдений над объектом исследования, представляет собой статистическую совокупность. Статистическая совокупность, содержащая в себе все возможные значения случайной величины, называется генеральной статистической совокупностью. Выборочной статистической совокупностью называ-

7

ется совокупность, в которой содержится только некоторая часть элементов генеральной совокупности. По результатам экспериментов практически всегда встречаются с выборочной, а не с генеральной совокупностью. Выборочную статистическую совокупность будем в дальнейшем называть выборкой, а число опытов (наблюдений) n, содержащееся в выборке, – объемом выборки.

При повторении опытов в одинаковых условиях обычно обнаруживается закономерность в частоте появления тех или иных результатов. Некоторые значения случайной величины появляются значительно чаще других, при этом в целом они группируются относительно некоторого значения – центра группирования, которое обозначим через My. Для описания этого явления используется вероятностный подход [2]. Пусть pi вероятность того, что случайная величина, являющаяся результатом эксперимента, примет значение yi, i = 1, 2, ..., п. Если значения pi известны для всех возможных значений yi из генеральной совокупности, то величину My можно найти по формуле

n

 

M y = p1 y1 + p2 y2 +... + pn yn = pi yi .

(1.1)

i=1

Величину My называют математическим ожиданием, или гене-

ральным средним случайной величины. Одно только математическое ожидание не может отобразить все характерные черты статистической совокупности. Исследователю необходимо знать, кроме того, изменчивость (или вариацию) наблюдаемой характеристики объекта.

Рассеивание случайной величины относительно математического ожидания характеризуется величиной, называемой дисперсией. Обычно она обозначается через σ2. Для генеральной совокупности дисперсия определяется по формуле

n

 

σ2 = pi (yi Mi )2 .

(1.2)

i=1

Дисперсию σ2 часто называют генеральной дисперсией. Квадратный корень из дисперсии называется средним квадратическим

отклонением случайной величины (или стандартом) σ = σ2 . Как и дисперсия, среднее квадратическое отклонение является характе-

8

ристикой рассеивания значений случайной величины относительно математического ожидания.

Формулы (1.1) и (1.2) справедливы для дискретных случайных величин. Для непрерывных случайных величин математическое ожидание и дисперсия выражаются через соответствующие интегралы.

Поскольку экспериментатор встречается не с генеральной совокупностью, а с выборкой, необходимо иметь формулы, позволяющие приближенно оценить математическое ожидание My и дисперсию σ2 на основе экспериментальных данных. Пусть по результатам однородной серии опытов получена выборка y1, y2, ..., yn. Наилучшей оценкой для математического ожидания My является среднее арифметическое или просто «среднее»

 

=

y1 + y2 +.. + yn

(1.3)

y

n

 

 

 

Найденное значение ycp называют еще выборочным средним в отличие от генерального среднего My. Оценкой дисперсии σ2 случайной величины является выборочная, или эмпирическая диспер-

сия. Она обозначается через s2 и вычисляется по формуле

 

 

 

(y1

 

)2

+(y2

 

)2 +... +(yn

 

)2

 

 

s2

=

y

y

y

.

(1.4)

 

 

 

 

n 1

 

 

 

 

 

 

 

 

Числитель этой формулы представляет собой сумму квадратов отклонений значений случайной величины от среднего значения ycp. Знаменатель формулы для выборочной дисперсии называется числом степеней свободы, связанным с этой дисперсией, и обозначается через f:

f = (n – 1).

Формулу (1.4) можно преобразовать к вычислений:

 

1

 

 

n

s2 =

 

nyi2

n 1

 

 

i=1

Величина

 

 

 

 

 

 

 

1

 

 

 

n

s =

 

 

(yi y

 

 

 

 

 

 

n 1 i=1

(1.5)

виду, более удобному для

ny2

 

(1.6)

.

 

 

 

)2 .

 

(1.7)

9

является оценкой среднего квадратического отклонения σвыборки. Ее также называют выборочным стандартом.

Часто для оценки изменчивости (вариации) случайных величин используют коэффициент вариации ν, равный

ν =

s

100% .

(1.8)

y

 

 

 

Коэффициент вариации характеризует не абсолютное, а относительное рассеивание случайной величины относительно среднего.

Важными в статистике являются также следующие статистические показатели:

средняя квадратическая ошибка среднего значения

 

sy = s

n ;

 

 

(1.9)

показатель точности среднего значения

 

ξ =

sy

 

100%

=

 

ν

;

(1.10)

y

 

 

n

 

 

 

 

 

 

 

ошибка среднего квадратического отклонения

 

 

 

ss = s

2n .

 

 

При изложении дальнейшего материала данного раздела будем предполагать, что результаты наблюдений свободны от систематических ошибок, а случайные ошибки (а значит, и результаты наблюдений) подчинены нормальному закону распределения.

1.3. Расчет доверительного интервала для математического ожидания

Величина y , найденная по выборке, представляет ценность по-

стольку, поскольку по ней можно судить об истинном среднем математическом ожидании My. Представляет интерес отыскание величины максимальной ошибки ∆, которую мы допускаем, предполагая My равным y . Требуется, следовательно, найти величину ,

при которой

y − ≤ M y y + .

(1.11)

10

 

Неравенством (1.11) задается интервал, в котором находится значение математического ожидания My. Этот интервал называется доверительным интервалом для математического ожидания. Величина зависит, очевидно, от объема выборки n. Чем больше n, тем меньше максимальная ошибка . Однако даже при заданном n нельзя абсолютно достоверно указать величину , так как расчет этой величины, как и любой статистический вывод, делают на основе результатов эксперимента, а они заведомо содержат ошибки.

Выводы, которые делают на основе неточных данных, принципиально не могут быть абсолютно достоверными, поэтому говорят о надежности статистического вывода, которую оценивают величиной доверительной вероятности p, где 0 < p < 1. Например, статистический вывод, сделанный с доверительной вероятностью p = = 0,95, будет справедлив в 95 случаях из 100. Будем пользоваться чаще величиной q = 1 – р, называемой уровнем значимости. Уровень значимости задается заранее до проведения расчетов. Типичные значения для q: 0,01; 0,05 и 0,1 или в процентах: 1, 5, 10.

Вернемся к отысканию доверительного интервала для математического ожидания. Будем предполагать, что дисперсия измеряемой величины y заранее неизвестна, а ее оценка s2 найдена по выборке с помощью формул (1.4) или (1.9). В этом случае величина

определяется по формуле

= ts n [3],

следовательно,

довери-

тельный интервал для математического ожидания равен

 

 

 

ts

n M y

 

+ ts

n .

(1.12)

 

y

y

Величина s – это оценка стандарта: s =

s2 . Кроме известных

величин s и n, в формулу (1.12) входит величина t, для отыскания которой понадобятся статистические таблицы. Они есть практически в каждом руководстве по математической статистике или планированию эксперимента, в том числе и в данной книге.

Величина t называется табличным значением t-критерия Стьюдента. В соответствующей таблице (см. табл. 1.1) ее следует отыскать по предварительно заданному уровню значимости q и числу степеней свободы f = п – 1.

Оценку для математического ожидания в виде интервала часто называют интервальной оценкой в отличие от оценок по формулам

11

(1.3) и (1.11), которые называют точечными оценками для математического ожидания.

Таблица 1.1

Значения t-критерия Стьюдента

(q – уровень значимости, f – число степеней свободы)

f

 

q

f

q

 

f

 

q

0,05

0,01

0,05

 

0,01

0,05

 

0,01

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

12,7

63,66

14

2,14

 

2,98

27

2,05

 

2,77

2

4,30

9,92

15

2,13

 

2,95

28

2,05

 

2,76

3

3,18

5,84

16

2,12

 

2,92

29

2,05

 

2,76

4

2,78

4,60

17

2,11

 

2,90

30

2,04

 

2,75

5

2,57

4,03

18

2,10

 

2,88

40

2,02

 

2,70

6

2,45

3,71

19

2,09

 

2,86

50

2,01

 

2,68

7

2,36

3,50

20

2,09

 

2,85

60

2,00

 

2,66

8

2,31

3,36

21

2,08

 

2,83

80

1,99

 

2,64

9

2,26

3,25

22

2,07

 

2,82

100

1,98

 

2,63

10

2,23

3,17

23

2,07

 

2,81

120

1,98

 

2,62

11

2,20

3,11

24

2,06

 

2,80

200

1,97

 

2,60

12

2,18

3,05

25

2,06

 

2,79

500

1,96

 

2,59

13

2,16

3,01

26

2,06

 

2,78

 

 

 

 

.

Пример. 10 образцов (по 60 семян ячменя) были подвергнуты СВЧ-облучению. В результате проросло следующее количество Н семян в образцах: 47, 35, 40, 43, 35, 41, 46, 44, 54, 39 шт. Требуется рассчитать точечную оценку и доверительный интервал для математического ожидания.

Вычислим среднее арифметическое Hср и оценку дисперсии s2 выборки:

Нср = 47 +35 +... +39 = 42,6 , 10

10

s2 = (Hi2 10Hcp2 ) / 9 = 33,37 .

i=1

Отсюда s = s 2 = 5,77 (шт.).

Зададимся уровнем значимости q = 0,05. Это соответствует доверительной вероятности p = 1 – q = 0,95. Из табл. 1.1 по величи-

12

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]