Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Игнатенко Статистическая оценка данных екологического мониторинга 2010.pdf
Скачиваний:
131
Добавлен:
16.08.2013
Размер:
2.09 Mб
Скачать

p = (rxz2 2rxy rxz ryz + ryz2 ) (1 rxy2 ),

(1.27)

где rxy, rxz, ryz корреляции соответственно между величинами x и у, у и z, x и z. Величина p лежит в пределах 0 < p < l и так же, как и обычный коэффициент корреляции, служит для оценки линейной статистической связи.

1.12.Ранговая корреляция

Вэкологическом мониторинге при формировании списков приоритетных веществ-загрязнителей требуется установить наличие взаимосвязи между двумя качественными признаками, т.е. признаками, которые не обязательно являются численно измеримыми. Например, качественными признаками являются фракционный состав, давление, температура атмосферного воздуха и комфортность рабочего места и т.д. Исследуемые объекты в этом случае можно проранжировать, т.е. пронумеровать в порядке возрастания или убывания признака. Этот номер, присвоенный объекту, будем называть рангом. Так как исследуются два признака, то каждому i-му

объекту присваиваются два ранга: xi и yi в соответствии с признаками x и у. Таким образом, имеем две последовательности рангов, с количеством значений по каждому рангу n:

по признаку x: x1, x2,... xn; по признаку y: y1, y2,... yn.

Одним из способов оценки связи между двумя качественными признаками является вычисление коэффициента ранговой корреляции Спирмена R [6]. Формула для него имеет вид

 

n

(n3

 

,

(1.28)

R =1

6di2

n)

 

i=1

 

 

 

 

где

 

 

 

 

 

di = xi – yi.

 

 

(1.29)

Как и коэффициент корреляции, коэффициент R изменяется в пределах от –1 до +1, а его абсолютная величина пропорциональна степени зависимости между признаками x и у.

Оценка значимости этого коэффициента проводится точно так же, как и для обычного коэффициента корреляции r (см. п. 1.11).

26

= 0,72 .

Эта проверка корректна при n > 9. Коэффициент ранговой корреляции может использоваться и тогда, когда рассматриваемые признаки являются количественными, но для целей исследования достаточно проранжировать объекты по возрастанию или убыванию каждого из них.

Пример. Требуется выяснить, есть ли взаимосвязь между уровнем – баллом по курсу «Механика жидкости и газов» студентов 4- го курса по специальности «Экология» и оценкой по домашнему заданию (ДЗ) (определение санитарно-защитной зоны точечного источника при выбросе определенного числа различных ингредиентов).

Допустим, что для каждого из 10 студентов был выбран совокупный показатель, учитывающий оценку по предмету, аккуратность при выполнении лабораторных работ и др., позволяющий провести ранжирование рассматриваемых студентов, аналогично выбран показатель и по выполнению ДЗ.

Ранжирование студен-

1

2

3

4

5

6

7

8

9

10

тов по уровню курса

 

 

 

 

 

 

 

 

 

 

Ранги студента по вы-

5

3

4

2

7

1

0

9

6

8

полнению ДЗ

 

 

 

 

 

 

 

 

 

 

В первой строке студенты пронумерованы в порядке возрастания этого показателя (большему номеру соответствует более высокий уровень специализации).

Ранжирование по ДЗ приведено во второй строке, но значения рангов соответствует каждому студенту свое. Вычислим коэффициент ранговой корреляции Спирмена по формуле (1.30):

R = 16[(15)2 +(2 3)2 +(3 1)2 +(4 4)2 +(5 2)2 +...] 103 10

Значение коэффициента ранговой корреляции свидетельствует в данном случае о том, что с ростом уровня знаний по рассматриваемому курсу уровень выполнения ДЗ по мониторингу повышается. Для оценки значимости найденного значения R вычислим величину

tpасч по формуле (1.28), получим tрасч = 2,93. Из табл. 1 для q = 0,05, f = 10 – 2 = 8 найдем tтабл = 2,31. Соотношение tрасч = 2,93 > tтабл =

27

= 2,31, позволяет сделать вывод о наличии ранговой корреляционной связи между рассматриваемыми показателями.

1.13. Обработка экспертных оценок при ранжировании

Задача ранжирования фактора усложняется при увеличении у него количества признаков m. Рассмотрим применительно к задаче пример оценки степени согласованности мнений экспертов при проведении экологической экспертизы. Признаками в данном примере служат оценки (мнения) экспертов. Подобная задача часто встречается, например, в планировании эксперимента и прогнозировании.

Пример. Определены n факторов, влияющих на функционирование объекта x1, x2, x3,… xn. Требуется выявить важнейшие из этих факторов, для того чтобы подвергнуть их дальнейшему исследованию. Каждому из m экспериментов предлагается список факторов с указанием диапазонов их варьирования. Эксперту предлагают приписать ранги этим факторам – пронумеровать их в порядке степени их влияния на объект. В качестве примера в табл. 1.4 представлены результаты ранжирования, данные всеми экспертами.

Таблица 1.4

Результаты ранжирования

Эксперты

 

Факторы

 

X1

X2

X3

Xn

 

1-й

A11

A21

A31

An1

2-й

A12

A22

A32

An2

......

.....

.....

.....

.....

m –й

A1m

A2m

A3m

Anm

Здесь Aij ранг, присвоенный j-м экспертом i-му фактору. Степень согласованности мнений экспертов характеризуется ко-

эффициентом конкордации W, который вычисляется по формуле

W =

12S

,

(1.30)

m2 (n3n )

 

 

 

28

где

n

m

 

2

 

S = ∑ ∑aij 0,5m(n 1)

.

(1.31)

i=1

j =1

 

 

 

Величина W может принимать значения в пределах 0 < W < 1. Чем ближе к 1 значение W, тем больше согласие между экспертами. Для оценки значимости коэффициента конкордации использу-

ется распределение χ2 (при n > 7). Вычисляется χ2расч = m(n – 1)W, которое сравнивается с величиной χ2табл , найденной при уровне значимости q и числе степеней свободы f = n – 1 по приложению 4.

Если χ2pасч > χ2табл , то фиксируется согласие экспертов при дан-

ном уровне значимости.

Пример. При ранжировании входных факторов, определяющих экологическое состояние окружающей среды в зоне действия предприятия, проведен опрос авторитетных членов общественной экологической комиссии. Всем членам комиссии были выданы анкеты, в которых перечислялось 11 факторов, влияющих на рождаемость населения, с указанием диапазонов их варьирования. Экспертам предлагалось проранжировать эти факторы в соответствии со степенью влияния их на исследуемый показатель. В табл. 1.5 приведены результаты опроса, полученные от 14 экспертов.

В последней строке таблицы приведены суммы рангов по всем экспертам для каждого фактора. Согласно этому суммарному ранжированию расположение факторов имеет следующий вид (в порядке убывания степени их влияния на рождаемость):

количество выбрасываемой пыли (1), влажность воздуха (2), уровень напряженности магнитного поля (3), температура (4),

радиоактивный уровень выбрасываемых радионуклидов (5, 6), концентрация окислов углерода (7, 8), азота (9), тяжелых металлов(10), диоксинов (11).

29

Таблица 1.5

Результаты опроса

Экс-

 

 

 

 

 

Факторы

 

 

 

 

 

перт

 

 

 

 

 

 

 

 

 

 

 

 

 

1

2

3

4

5

 

6

 

7

8

9

10

11

1

5

1

6

9

2

 

9

 

7

4

9

3

9

2

3

1

4

10

5

 

7

 

8

6

11

2

9

3

1

5

7

9

6

 

9

 

9

4

9

2

3

4

4

1

5

11

2

 

8

 

7

6

10

3

9

5

1

4

6

11

3

 

7

 

10

9

8

2

5

6

4

5

3

10

6

 

10

 

8

2

10

1

7

7

2

4

6

7

4

 

1

 

8

8

10

3

11

8

1

2

4

11

5

 

10

 

9

6

8

3

7

9

2

2

6

11

2

 

9

 

9

5

8

2

7

10

3

2

7

10

6

 

9

 

8

4

11

1

5

11

4

2

6

11

2

 

8

 

8

4

8

1

8

12

6

1

4

9

3

 

11

 

8

5

9

2

6

13

2

3

4

11

5

 

10

 

6

7

8

1

9

14

3

2

4

11

5

 

9

 

8

6

10

1

7

j Aij

41

35

72

141

56

 

117

 

113

76

129

27

102

S = (41 – 91)2 + (35 – 91)2 + (72 – 91)2 + (141 – 91)2 + (56 – 91)2 + ...=

=2500 + 3136 + 361 + 2500 + 1225 + 676 + 484 + 225 + 1444 +

+4096 + 121…=16768;

W =12 16768(196 (133111))= 0,77.

Для оценки значимости вычисленного значения коэффициента конкордации рассчитаем χ2расч = m(n – 1)W = 108,8. Для уровня значимости q = 0,05 при числе степеней свободы f = n – 1 = 10 из Приложения 4 найдем χ2табл = 18,3. Полученное соотношение χ2расч > χ2табл позволяет принять гипотезу о наличии согласования между экспертами.

30

2. СТАТИСТИЧЕСКАЯ ОБРАБОТКА ДАННЫХ МОНИТОРИНГА В СИСТЕМЕ ТАБЛИЧНОГО РЕДАКТОРА

EXCEL

2.1. Проверка воспроизводимости (однозначности) наблюдаемых результатов

Представленные алгоритмы первичной обработки результатов мониторинга и их применение немыслимы без программных вычислительных средств, которых на данный момент огромное коли-

чество (Statistica, Statgraf, Mathlab, CI+,Excel и др.), и студенту за-

частую приходится обращаться к указанным программным продуктам, не имея достаточных знаний по указанным программным средствам. С нашей точки зрения, Excel может быть эффективным программным продуктом для экологов и биологов при обработке экспериментальных данных и данных экологического мониторинга. Это мощный программный продукт, оснащенный множеством различных функций и возможностями их реализации. Кроме того, Excel позволяет легко создавать на его основе собственные программы.

Для открытия Excel (данный программный продукт является сейчас обязательным компонентом операционной системы Windows) достаточно дважды щелкнуть левой кнопкой мыши на ярлычке Excel. После открытия Excel на экране монитора появится окно приложения (рис. 2.1): в первой строке – строка заголовка; во второй – меню; в третьей – панель инструментов Стандартная; в четвертой – панель Форматирование; в пятой – строка формул. Далее окно рабочей книги и полосы прокрутки, в нижней части экрана – строка состояния.

Рабочая книга по умолчанию состоит из трех рабочих листов (их количество может быть увеличено до 255 с помощью команды меню Вставка – Лист). Рабочий лист состоит из 256 ячеек (столбцов) в ширину и 65536 в длину. Каждая ячейка однозначно идентифицирована номером строки и столбца, например: А2, В3 и т.д. Ячейки могут содержать текстовую, числовую и символьную информацию.

31

Рис. 2.1. Окно приложения Excel

Выбрав команду Формат – Ячейки, можно задать необходимый формат, например: дата, число, время, процентный и т.д.

Число ячейки может содержать до 15 значащих цифр. Как было отмечено, Excel располагает возможностью создания формул и использование готовых функций для обработки массивов чисел.

Для ввода формулы необходимо набрать в пустой ячейке «=», а затем записать формулу, аргументы которой к данному моменту определены численно. При вводе формул удобно использовать встроенные функции f (существует несколько сот встроенных функций, позволяющих обрабатывать численную информацию).

Ячейки в Excel могут иметь абсолютную ($A$10) и относительные адресации ($A10: А – абсолютная ссылка, строка 10 – относительная; A$10: столбец А – относительная ссылка, строка

32

10– абсолютная; А10: столбец А – относительная ссылка, строка

10– относительная ссылка). Характер ссылки можно изменить, активизировав соответствующую ссылку на ячейку в формуле и последовательно нажимая клавишу F4.

При копировании формул в другие ячейки абсолютные ссылки сохраняются, а относительные – изменяются. Эти свойства позволяют значительно облегчить табулирование функций (вычисление значений функций при известных значениях аргумента), обработку массивов и т.д.

Одним из этапов мониторинга является процедура и результат представления и хранения результатов наблюдений пригодных для оперативной обработки. Согласно современным представлениям наиболее эффективным способом хранения, организации и поиска необходимой информации являются базы данных (БД). Создание базы данных упрощает обработку данных мониторинга и их анализ. Для этого в Excel в рабочей книге в верхнюю строку необходимо ввести заголовки столбцов, а под ними без пропусков

вкаждую ячейку – соответствующие данные. При большом их количестве для редактирования или отбора по некоторым критериям удобно воспользоваться командой Данные – Форма.

Полученные таблицы данных мониторинга БД позволяют на первом этапе с помощью меню Вставка – Диаграмма оценить визуально на графике их «качество» и характер, сориентироваться на их статистическую обработку. Далее, необходимо воспользо-

ваться меню Сервис – Анализ данных – Описательная статисти-

ка. При наличии сомнительных значений в массиве данных по представленному алгоритму в п. 1.5 провести анализ на промахи. Для этого необходимо из рассматриваемого массива данных «убрать» сомнительный результат и с помощью команды Описательная статистика получить необходимые параметры выборки и оценить значение на промах (рис. 2.2).

Вкачестве примера рассмотрим результаты измерений прорастания семян ячменя после их низкоинтенсивного СВЧоблучения (частота 10 ГГц, мощность падающего потока около

10мкВт/см2).

33

Рис. 2.2. Анализ данных. Описательная статистика

При анализе результатов измерений на графиках (рис. 2.3) к сомнительным показаниям можно отнести для первого графика значения 89, 77 и 69, для второго графика – 80, 75, 63, которые необходимо проверить на промах. Для этого формируем новые массивы данных без сомнительных значений и применяем к ним ко-

манду Описательная статистика.

По полученным значениям дисперсии и среднего статистического определяем значение t-критерия Стьюдента:

tрасч = |yсомн – yср|/s.

Полученное значение сравниваем с табличным tтабл, которое находим по табл. 1.1 при значениях α = 0,05 и степени свободы f, равной количеству элементов массива минус один. Если tрасч > tтабл, то подозреваемый результат yсомн является промахом и должен быть исключен из массива (выборки). В нашем случае для первого мас-

34

сива без сомнительных значений: yср = 115,96, s2 = 74,39, а tрасч =

= 3,12 (tтабл = 2,02 при α = 0,05 и f = 46), рассчитанных для значения yсомн = 89, результат показывает, что это значение – промах. Анало-

гично для второго массива: yср = 114,34, s2 = 117,14, а tрасч = 3,17 (tтабл = 2,02 при α = 0,05 и f = 46), рассчитанных для значения yсомн = 80, результат показывает, что это значение – промах.

Рис. 2.3 Графики результатов измерений

Убрав промахи из рассматриваемых массивов данных мониторинга (выборок), проверяем их на однородность – на принадлежность к одной генеральной выборке. Алгоритмы данной процедуры представлены в пп. 1.6–1.8.

В качестве примера рассмотрим результаты того же эксперимента по исследованию влияния СВЧ-излучения на прорастание семян ячменя. Семена облучались в трех чашках Петри по 50 шт. в

35

каждой, три такие же чашки с семенами были контрольными (без облучения), после прорастания проводились замеры ростков. Результаты этих замеров для каждой чашки Петри представлены своим массивом данных (выборка) (рис. 2.4).

Рис. 2.4. Результат измерений прорастания семян ячменя после их низкоинтенсивного СВЧ-облучения

Для выполнения поставленной задачи воспользуемся командой Описательная статистика и проверим на однородность три массива значений облученных семян по одному из алгоритмов. Для определения статистически значимого отличия двух экспериментальных массивов СВЧ3 (облученные семена ячменя) и К1 (контрольный образец – необлученные семена ячменя) (рис. 2.5), воспользуемся критерием Стьюдента:

tрасч. = |yср3 – yср4|/( s12 /n3+ s22 /n4)0,5,

36

где yср3, yср4 – средние значения выборок СВЧ3 и К1, их дисперсии s12 , s22 и объемы выборок n3, n4. Пример расчета критерия

Стьюдента представлен на рис. 2.5. Результаты показали, что tрасч > > tтабл, следовательно, две выборки значительно отличаются.

Рис. 2.5. Проверка на статистически значимое отличие двух выборок по критерию Стьюдента

2.2. Дисперсионный анализ данных

При обработке данных мониторинга возникает необходимость оценить влияние различных факторов на те или иные показатели отклика наблюдаемого объекта. И здесь одним из эффективных методов, позволяющих установить существенное влияние рассматриваемых факторов (их удельный вес) на признак – отклик, является дисперсионный анализ.

37

В дисперсионном анализе используются следующие термины: фактор (Х) – причина, обусловливающая изменение наблю-

даемого признака у;

интервал варьирования фактора (его значения в этом интерва-

ле Хi , i = 1,2,…n);

отклик (у) – значение измеряемого или наблюдаемого призна-

ка уi .

Техника дисперсионного анализа меняется в зависимости от числа изучаемых независимых факторов. Если факторы, вызывающие изменчивость среднего значения признака, принадлежат одному источнику, то мы имеем простую группировку, или однофакторный дисперсионный анализ, и далее соответственно: двойная группировка – двухфакторный дисперсионный анализ, трехфакторный дисперсионный анализ, …, m-факторный.

Задача дисперсионного анализа – исследование влияния тех или иных факторов (или уровней факторов) на изменчивость средних значений наблюдаемых параметров.

Сущность дисперсионного анализа состоит в выделении и оценке отдельных факторов, вызывающих изменчивость наблюдаемого признака.

Таблица 2.1

 

Результаты экспериментальных данных

 

 

 

 

 

Время, мин

 

 

 

КОЕ

 

 

 

 

 

 

 

 

 

 

 

 

0

1

3

5

10

15

20

 

1

0,56 108

0,11 108

2,1 106

2,4 104

4,9 102

0,2102

0

2

0,56 108

0,113 108

2,13 106

2,89 104

5,6 102

8

0

3

0,56 108

0,111 108

2,41 106

3,2 104

5,9 102

24

0

 

0,56 108

 

 

 

 

 

 

4

0,113 108

2,21 106

2,6 104

5,1 102

17

0

В качестве примера рассмотрим результаты экспериментальных данных по определению влияния времени прединкубации на КОЕ микроорганизма Staphilococcus aureus: разведение 1:10 при мощности лазерного излучения 30 Дж/см2 и концентрации ФС 0,1 % (табл. 2.1), т.е. проанализируем влияние временного фактора А,

38

рассматриваемого на 7 уровнях (А = 0, 1, 3, 5, 10, 15, 20 мин). На каждом уровне Аi проведены 4 наблюдения. Следовательно, на всех уровнях фактора А произведены 7 4 = 28 наблюдений.

Результаты в табл. 2.1 и без статистического анализа хорошо представляют влияние временного фактора А, однако для наглядности применения дисперсионного анализа представленного в Excel мы воспользуемся его программным продуктом. Для этого откроем страничку и внесем исходные данные из табл. 2.1, далее с помощью меню Сервис Анализ данных выберем программный пакет Однофакторный дисперсионный анализ и заполним парамет-

ры диалогового окна. После нажатия кнопки «ОК» получаем таблицу результата дисперсионного анализа представленных данных

(рис. 2.6): Fрасч = 286353 намного больше Fкрит = 2,572 что свидетельствует о существенном влиянии временного фактора А.

Рис. 2.6. Анализ данных. Однофакторный дисперсионный анализ. Таблицы результатов

39

Двухфакторный дисперсионный анализ позволяет статистически обосновать существенность влияния факторных признаков А и В, и их взаимодействие на выходной параметр у.

Рассмотрим пример двухфакторного дисперсионного анализа. Возьмем результаты эксперимента по определению влияния концентрации фотосенсибилизатора (ФС, %) (фактор А) и плотности потока лазерного излучения (Дж/см2) (фактор В) на количество выживших микроорганизмов (КОЕ) (фактор у). Процедура двухфакторного дисперсионного анализа указанных данных в Excel выполняется по ранее описанному алгоритму. В меню выбирается программа «Двухфакторный дисперсионный анализ без повторе-

ний». На рабочем поле листа набирается двухмерный массив, где каждый столбец представляет значения КОЕ при одной плотности потока в диапазоне исследуемых концентраций ФС, далее заполняется диалоговое окно и после нажатия кнопки «ОК» получаем итоговую таблицу (рис. 2.7).

Рис. 2.7. Анализ данных. Двухфакторный дисперсионный анализ без повторений

40

Данные дисперсионного анализа свидетельствуют о том, что факторы А и В существенно влияют на КОЕ микроорганизма Кан-

дида: FA =7,46 > 3,28; FB = 7,46 > 2,9.

2.3. Корреляционный анализ данных

Следующим этапом обработки данных мониторинга является установление зависимости между изучаемыми (наблюдаемыми) факторами. И здесь важным показателем стохастической зависимости является корреляционная связь, которая определяется выборочным коэффициентом корреляции r, характеризующим степень линейной функциональной зависимости между причинным фактором Х и откликом у.

В качестве примера рассмотрим результаты установления корреляционной зависимости между количеством выживших микроорганизмов КОЕ и процентным содержанием ФС. Для этого воспользуемся в меню программой «Корреляция».

Представим данные мониторинга в табличном виде (табл. 2.2), где выходной параметр процесса у – значения КОЕ, а входной фактор Х – значения ФС. С помощью программы «Корреляция» получим значения коэффициента корреляции. Графическое представление табличных данных КОЕ от ФС при различных плотностях потока лазерного излучения показаны на рис. 2.8.

Таблица 2.2

Значения КОЕ при различных значениях ФС и плотностях потока лазерного излучения

 

ФС

Плотность потока лазерного излучения W, Дж/см2

 

5

10

15

20

25

30

 

 

1

0,1

680000

310000

97000

66000

59000

48000

2

0,01

120000

81000

54000

39000

31000

23000

3

0,001

100000

91000

74000

48000

39000

29000

4

0,0001

480000

110000

820000

410000

360000

200000

41

1000000

 

 

Ряд1

800000

 

 

 

 

Ряд2

 

 

 

600000

 

 

Ряд3

400000

 

 

Ряд4

200000

 

 

Ряд5

 

 

Ряд6

0

 

 

 

 

 

1

2

3

4

Рис. 2.8. Графики зависимости КОЕ от ФС

Полученные значения коэффициентов корреляции (табл. 2.3) для данных, представленных в виде кривых на графике, наглядно отражают зависимость КОЕ от ФС.

Таблица 2.3

Корреляционная связь ФС и КОЕ для различных плотностей потока лазерного излучения

,

Показатель

 

Плотность лазерного излучения

 

 

5

10

15

20

25

30

Коэффициент

0,75

0,98

–0,34

–0,33

–0,32

–0,27

коррелеляции

 

 

 

 

 

 

,

Если коэффициент корреляции r < 0,2 – связи нет, если r < 0,5

– связь слабая, r < 0,75 – связь средняя, r < 0,9 – связь тесная.

42

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]