Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Игнатенко Статистическая оценка данных екологического мониторинга 2010.pdf
Скачиваний:
131
Добавлен:
16.08.2013
Размер:
2.09 Mб
Скачать

нам q = 0,05 и f = n – 1 = 9 найдем значение t = 2,26. Подставляя найденные значения для H, s, n и t в формулу (1.12), получим доверительный интервал для математического ожидания

42,4 (2,26 5,77) 10 < M y < 42,4 + (2,26 5,77) 10 . (1.13)

Не следует думать, что во всех случаях целесообразно задаваться как можно большей надежностью статистического вывода. Покажем на материале предыдущего примера, к чему это может привести. Зададимся теперь уровнем значимости q = 0,01. Доверительная вероятность будет теперь равна p = 1 – 0,01 = 0,99. Новое значение t, найденное из табл. 1.1, составит 3,25, а доверительная оценка примет вид 36,8 = < My = < 48,6. Как и следовало ожидать, с большей надежностью можно гарантировать только более широкий доверительный интервал для математического ожидания при тех же опытных данных.

1.4. Определение необходимого объема выборки

Пусть требуется найти минимальное число n повторений опытов, при котором среднее арифметическое уср, найденное по этой выборке, отличалось бы от математического ожидания не более чем на заданную величину ∆. По сути, это – задача, обратная предыдущей. Для ее решения необходимо знать оценку дисперсии s2. Здесь можно использовать, например, результаты проведенных ранее исследований. Искомое значение n определяется по формуле

n = t2 s2 2 .

(1.14)

Величину t отыскивают по табл. 1.1 при уровне значимости q и числе степеней свободы f, связанном с оценкой дисперсии s2. Если эта дисперсия найдена по выборке объема, большего 120, то вместо величины t в формуле (1.14) можно пользоваться величиной T, зависящей только от уровня значимости q:

q

0,2

0,1

0,05

0,01

0,005

Τ

1,28

1,64

1,96

2,58

2,81

Формулу (1.14) можно преобразовать следующим образом. Поделим числитель и знаменатель на у2. Обозначим через ε величину

13

(∆/yср)·100 %. Это выражение представляет собой относительную допускаемую ошибку. Учитывая, что отношение (s/y) % – это, по определению, коэффициент вариации ν, получим

n =T 2ν2 / ε2 .

(1.15)

Пример. На основе результатов измерений количества частиц на фильтрах, приведенных в табл. 1.2, найти необходимый объем выборки, при котором среднее отличалось бы от математического ожидания не более чем на = 50 частиц с доверительной вероятно-

стью p = 0,95.

Таблица 1.2

Количество частиц на исследуемых фильтрах

Номер фильтра

1

2

3

4

5

6

7

8

9

10

11

12

760

940

1110

766

615

502

708

618

560

552

960

1210

760

1010

850

790

535

517

629

618

428

560

1260

825

460

454

847

795

500

720

605

535

485

860

613

825

461

685

844

893

740

730

725

510

652

864

1070

860

430

910

942

1120

758

619

775

734

675

560

412

952

651

950

1236

835

785

623

780

741

602

565

1160

1264

668

910

545

830

802

510

880

717

610

495

452

660

602

554

852

900

1034

702

1117

740

523

456

552

950

Для определения необходимого объема выборки воспользуемся формулой (1.15), причем вместо t можно подставить в нее значение T. Данной величине p соответствует уровень значимости q = 1 – p = = 0,05. Соответствующее значение T = 1,96.

По данным табл. 1.2 вычислим среднее значение y и оценку

дисперсии s2: уср = 750, s2 = 41616. Тогда согласно формуле (1.16)

имеем: n = (1,962·41616) / 502 ≈ 64.

В изложенном далее материале широко используются процедуры проверки статистических гипотез. Статистическая гипотеза – это некоторое предположение относительно свойств генеральной совокупности, проверяемой по выборке. Например, гипотеза об однородности средних или дисперсии, о законе распределения и т.д. Проверка статистической гипотезы – это процедура, по результатам которой гипотеза принимается или отбрасывается.

14

Проверка статистических гипотез связана с такими распространенными задачами, как сравнительная оценка различных технологических процессов по их производительности, точности, экономичности или сравнение конструктивных особенностей машин и приборов. В планировании эксперимента проверка статистических гипотез позволяет правильно оценить преимущества одной модели перед другой, выявить наиболее значимые факторы, влияющие на данное явление, а также убедиться в пригодности (адекватности) полученного математического описания процесса.

Выдвинутую гипотезу называют основной, или нулевой. Гипотезу, противоречащую нулевой, называют альтернативной. Для проверки нулевой гипотезы используют специально подобранную случайную величину, распределение которой известно. Ее называют статистическим критерием. Например, при проверке гипотезы об однородности дисперсий в качестве критерия используют отношение выборочных дисперсий, которое подчиняется статистическому распределению Фишера.

Для проверки статистической гипотезы вычисляют значение критерия по имеющимся опытным данным. Если оно находится внутри некоторой заданной заранее области, называемой областью принятия гипотезы (областью допустимых значений), то нулевая гипотеза принимается. В противоположном случае значение критерия попадает в критическую область, и тогда гипотеза отвергается.

Однако попадание критерия в область допустимых значений не дает права категорически утверждать, что гипотеза полностью подтвердилась. Можно только заключить, что по данным выборки значение критерия не противоречит гипотезе, поэтому, принимая решение о правильности гипотезы, можно допустить ошибку. Ошибка первого рода состоит в том, что отвергается гипотеза, которая на самом деле верна. Вероятность этой ошибки задается заранее выбором уровня значимости q (как указывалось ранее, типичные значения q: 0,01; 0,05, 0,1 или 1, 5 и 10 %). Ошибка второго рода состоит в том, что гипотеза принимается, а на самом деле она неверна. Уменьшение ошибки второго рода достигается увеличением уровня значимости. Таким образом, уменьшение уровня значимости приводит к уменьшению ошибки первого рода и при этом к

15

увеличению ошибки второго рода. Отметим, что единственный способ одновременного уменьшения вероятностей ошибок первого и второго рода состоит в увеличении объема выборок.

1.5. Отбрасывание сомнительных наблюдений

Грубые наблюдения (выбросы) подлежат исключению из выборки. Для их обнаружения можно вновь воспользоваться t- критерием Стьюдента. В этом случае сомнительный результат yi, временно исключают из выборки, а по оставшимся данным рассчитывают среднее арифметическое y и оценку дисперсии s2. Далее

вычисляют величину tpaсч = yi y s .

Из таблиц распределения Стьюдента (см. табл. 1.1) по выбранному уровню значимости q и числу степеней свободы f, связанному с дисперсией s2, находят табличное значение t-критерия – tтaбл. Если tpaсч > tтaбл, то подозреваемый результат является промахом и должен быть исключен из выборки.

Иногда сомнение вызывают одновременно два или даже три элемента выборки. Исследование начинают с того из сомнительных элементов, значение которого ближе к среднему арифметическому выборки, а остальные сомнительные элементы временно отбрасывают. Затем рассчитывают значения y и s выборки без исключенных элементов, а также значение tpaсч для оставшегося сомнительного элемента. Далее решают вопрос об исключении этого элемента с уровнем значимости q. Если tpaсч > tтaбл, то оставшийся элемент выборки отбрасывают как грубое измерение. Тем более грубыми будут и остальные, ранее исключенные элементы. Если наименее сомнительный элемент не оказался промахом (tpaсч < tтaбл), то его присоединяют к выборке и исследуют следующий сомнительный элемент и т. д.

Пример. Проверим, не является ли промахом результат Н = 54 в примере из п. 1.3. Исключив это значение из выборки, найдем среднее и дисперсию по оставшимся данным:

Нср = 41,1, s2 = 18,86, s ≈ 4,34, tpaсч = (54 – 41,1) / 4,34 ≈ 2,97.

16

Зададимся уровнем значимости q = 0,01. Для этого q при f = = 9 – 1 = 8 из табл. 1.1 найдем tтaбл = 3,36. Полученное соотношение tpaсч < tтaбл не дает оснований считать результат Н = 54 промахом при выбранном уровне значимости.

1.6. Проверка гипотезы об однородности двух дисперсий

Результаты экспериментальных исследований часто используют, например, для сравнения условий функционирования объектов, оценки сравнительной эффективности различных технологий, разных способов измерения и т. д. Во многих случаях соответствующие выводы делают на основе анализа и сравнения нескольких выборок. Одна из простых задач такого типа возникает, когда надо сравнивать точность двух измерительных приборов. В этом случае, очевидно, следует сравнить оценки дисперсий соответствующих выборок.

Пусть представлены две выборки объемом n1 и n2, по которым найдены выборочные дисперсии s12 и s22 . Они являются оценками для генеральных дисперсий соответственно σ12 и σ22 . Предположим, что s12 = s22 . Требуется выяснить, можно ли утверждать, что обе выборки взяты из одной и той же генеральной совокупности. Если это так, то σ12 = σ22 . В этом случае выборочные дисперсии s12 и s22 называются однородными, а различие между ними объясняется влиянием случайных ошибок. В противном случае генеральные дисперсии σ12 и σ22 не равны друг другу. Тогда говорят, что разли-

чие между выборочными дисперсиями значимо.

Для проверки статистической гипотезы об однородности двух дисперсий используется критерий Фишера (F). Сначала вычисляется величина Fрасч, равная отношению большей из выборочных дис-

персий к меньшей. Пусть для определенности s22 > s22 . Тогда

Fрасч = s2

s2 .

(1.16)

1

2

 

17

Далее задаются уровнем значимости q и вычисляют числа степеней свободы дисперсии числителя и знаменателя по формуле (1.5): f1 = n1 1 и f2 = n2 1. По трем величинам q, f1 и f2 изтаблиц распределения Фишера (см. приложение 2) отыскивают вели-

чину F = Fтабл. Если Fрасч > Fтабл, то выборочные дисперсии считаются неоднородными (различие между ними значимо) для выбран-

ного уровня значимости q. Если Fрасч Fтабл, то можно принять гипотезу об однородности дисперсий.

Пример. Для сравнения точности двух измерителей влажности воздуха каждым из них проведено 10 измерений. Результаты замеров влажности W, %, первым и вторым приборами следующие:

Первый прибор

35

41

47

38

41

43

42

37

49

39

Второй прибор

42

39

42

43

45

40

37

44

44

43

Вычисленные значения средних и выборочных дисперсий для каждого прибора соответственно равны: y1 = 41,2; y2 = 41,9; s12 =

= 18,84; s22 = 6,32. Дисперсии существенно отличаются. Следует ли

отсюда, что точность первого измерителя влажности меньше, чем второго? Вычислим Fрасч по формуле (1.16). В данном случае в чис-

лителе должна быть дисперсия s12 :

Fрасч = s12 / s22 = 18,84 : 6,32 = 2,98.

Зададимся уровнем значимости q = 0,05. Числа степеней свободы каждой из дисперсии равны f1 = f2 = 10 – 1 = 9.

Из табл. 1.1 для q = 0,05, f1 = f2 = 9 найдем Fтабл = 3,18.

Полученное соотношение Fрасч < Fтабл не дает основания сделать вывод о значимости расхождения в точности исследуемых влагомеров по результатам данного эксперимента. Для окончательного решения вопроса необходимо повторить эксперимент, существенно увеличив объем каждой выборки.

1.7. Проверка однородности нескольких дисперсий, найденных по выборкам одинакового объема

Для проверки однородности нескольких дисперсий при равных объемах всех рассматриваемых выборок n1 = n2 = n3, =...= n может быть использован критерий Кохрена G.

18

Пусть т – количество выборочных дисперсий, однородность которых проверяется. Обозначим эти дисперсии s12 , s22 ,..., sm2 . Вычисляется расчетное отношение G по формуле

G = s2

(s2

+ s2

+... + s2 ) .

(1.17)

max

1

2

m

 

В числителе этой формулы стоит наибольшее значение из рассматриваемых дисперсий, а в знаменателе значение суммы всех дисперсий. Далее обращаются к таблицам распределения Кохрена (см. приложение 3). По выбранному уровню значимости q, числу степеней свободы каждой выборки f = n – 1 и по количеству выборок m из этой таблицы отыскивают величину G = Gтабл. Если G < Gтабл, то можно принять гипотезу об однородности дисперсий. В противном случае она отвергается.

Пример. На лабораторном стенде при отработке методики определения концентрации частиц в воздухе шестью студентами обработано пять фильтров при одних условиях. Результаты измерений – количество частиц на фильтре приведены в табл. 1.3.

Таблица 1.3

Количество частиц на фильтре

Номер

 

 

Студент

 

 

Среднее

Дис-

фильтра

1-й

2-й

3-й

4-й

5-й

6-й

 

персия

1

49

50

48

53

47

51

50

4,8

2

43

48

49

42

47

41

45

11,6

3

58

53

52

56

54

55

55

4,8

4

47

49

48

45

48

44

47

3,8

5

52

55

57

54

56

54

55

3,2

Требуется выяснить, можно ли считать, что разброс значений частиц для всех фильтров одинаков.

Для ответа на этот вопрос рассчитаем среднее значение уi, и оценку дисперсии si2 для каждого фильтра (они приведены в последних двух столбцах табл. 1.3). Проверим однородность дисперсий s12 s52 по критерию Кохрена (объемы каждой из пяти выборок одинаковы и равны шести). Из табл. 1.3 находим наибольшую дисперсию, равную s32 = 0,324. Составим G-соотношеиие:

19

Gрасч smax2 (s12 + s22 ... + sm2 )=11,628,2 = 0,41.

Из приложения 3 для количества выборок n = 5 и числа степеней свободы f = n – 1 = 6 1 = 5 при уровне значимости q = 0,05 нахо-

дим Gтабл = 0,5063. Поскольку Gрасч < Gтабл, гипотеза об одинаковом разбросе значений частиц принимается.

1.8.Проверка однородности нескольких дисперсий, найденных по выборкам различного объема

Экспериментаторы часто планируют получение выборок одинакового объема, однако, если в опытах обнаруживаются промахи, то после их исключения объемы выборок оказываются различными. Пусть, как и в предыдущем пункте, проверяется однородность не-

которого числа m дисперсий: s12 , s22 ,..., sm2 . Теперь эти дисперсии

найдены по выборкам различного объема – соответственно n1, n2, n3, ..., nm. В этом случае используют критерий Бартлетта-B. Предва-

рительно вычисляют величину s2y , представляющую собой среднее

взвешенное значение дисперсий, взятое с учетом числа степеней свободы

s2y = ( f1s12 + f2s22 +... + fm sm2 ) f ,

где f = f1 + f2 ...+fm; fm – это числа степеней свободы соответствующих дисперсий: fi = ni 1.

Далее рассчитывают величину B = V / C, где V и C соответст-

венно равны [10]:

 

 

 

 

V = 2,303

 

m

 

,

 

f lg sy2 fi lg si2

 

 

 

i=1

 

 

 

m

 

C =1+1 (3(m 1))

f lg sy2 fi lg si2

.

 

i=1

 

Затем из приложения 4 при уровне значимости q и числе степеней свободы k = т – 1 отыскивают значение χ2табл . Гипотеза об однородности дисперсий принимается, если B ≤ χ2табл . В данной проверке требуется, чтобы объем каждой выборки был не менее четы-

20

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]