Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

uchebnik10

.pdf
Скачиваний:
35
Добавлен:
21.03.2015
Размер:
8.26 Mб
Скачать

х.1. ОПРЕДЕЛЕНИЕ НЕОБходимоrо ОБЪЕМА ВЫБОРКИ

Элементарная логика и практический опыт подсказывают, что

неразумно стремиться к неоправданно БОJ1ЬШОМУ числу испыта­

ний, если убедительный результат можно получить при мини­ мально допустимом объеме выборки. Необходимая численность

выборки n, отвечающая точности, с какой намечено получить

средний результат, зависит от величины ошибки выборочной сред­

ней и определяется по формуле

 

 

 

 

/252

 

 

(211 )

 

 

 

 

n=

х

или

 

 

 

 

112

 

)2

 

 

 

 

 

 

/2

=

( t

(212)

 

 

 

 

n= 1121S~

К

'

 

 

где t -

нормированное отклонение,

с

которым

связан тот

или

иной уровень

значимости (а); si - выборочная

дисперсия;

Ll=

=ts-; -

величина, определяющая границы доверительного интер-

вала (здесь

8- =

' /

s~ - ошибка выборочной

средней);

К=,

 

 

V

n

 

 

 

 

 

= Ll/s:x;.

Прu.мер 2. Случайная выборка девяти вариант характеризует­ ся средней Х=12,1+0,68. Точность выборочной средней оказа-

лась недостаточно высокой: Cs= 100 0~68 =5,62=6. Какое чис-

I , I

ло испытаний n нужно провести, чтобы ошибку средней умень-

шить вдвое? В данном случае 8.х=8ХVn=О,68 V9= 2,04.

Примем t= 1,96;::::::2, что соответствует

5%-Ному уровню значи-

мости. Предварительно определим

D. = 2

О '68 =0,68; К=

 

 

2

= 0,68 =0,33. Подставляем найденные величины в формулу

2,04

(212): n= (2/0,33)2=62=36.

Чтобы уменьшить ошибку репрезентативности вдвое, нужно объем выборки увеличить в четыре раза (9.4=36). Обобщая

эти данные, можно сделать вывод: для уменьшения ошибки вы­

борочной средней в К раз нужно увеличить объем выборки в

J(2 раз.

При определении необходимого объема выборки для получе­ ния статистически достоверной разности между средними

(Х1-Х2) =d применяют формулу

n2=(т)2( sl

+s~).

(213)

Здесь Ll =tSd, где 8d - заданная величина

ошибки для разноСТИ

сравниваемых средних; 812 и S22 -

дисперсии для сравниваемых

309

выборок, причем SI2 -дисперсия для большей выборки; а="

= nI/n2 - отношение объема большей выборки к объему мень­

шей выборки. При n1 =n2 формула (213) принимает следующий

вид:

(214)

Пример 3. Изучали влияние лечебного препарата на массу тела лабораторных мышей (см. пример 2 гл. У). Были получе­

ны следующие результаты. Характеристики опытной группы

(n1 =9):

2 302,89

SI= -- ' -- 37,86;

9-1

контрольной группы (n2 = 11) :

S~= 443,64 =4436.

11 - 1

'

Разность между Х1 и Х2, равная 5,3+2,89, оказалась стати­

стически недостовериоЙ. Определим число наблюдений n, кото­

рое необходимо провести при уменьшении ошибки разности

вдвое, т. е. Sd=2,87/2= 1,445. Примем t=2. Имеем а= 11/9= 1,222

и ~=2·1,445=2,89. Отсюда

п=

(

2

)2 ( 44 364

+37,861

)

=

2,89

"'

 

=35,52=36.

 

 

1,222

 

 

 

 

 

 

 

 

 

 

При альтернативной группировке данных, когда числениость

выборочных групп выражают в долях единицы, планируемый

объем наблюдений определяют по формуле

n=

t2p(1- р)

,

(215)

112

 

 

 

где р - доля вариант, обладающих данным признаком;

~= tsp

Если доли выражают в процентах от общего числа наблюде­

ний, формула (215) принимает следующий вид:

 

n

(2 Р (100 -

р)

(216)

 

 

112

Прuмер 4. По предварительным данным, число гельминтоно­

сителей среди лиц, проживающих в N-M населенном пункте, рав­

но 8 %. Определить необходимое число наблюдений, при котором

величина максимальной ошибки ~ не превысит 4% для уровня

значимости, равного 0,05, и соответственно t=2.

Подставляя известные значения в формулу (216), находим n= 22·8 (100 - 8) 29« =184.

42

16

ПОСЛЕСЛОВИЕ РЕДАКТОРА

Объем сведений по биометрии, рассматриваемый в данном

учебном пособии, касается главным образом классической си­

туации, когда анализируют отдельный признак или несколько признаков, каждый из которых рассматривают отдельно от дру­

гих. Вместе с тем в последних главах, где описаны методы кор­

реляции и регрессии, по сути дела, вскрываются возможности

биометрического анализа одновременно двух nеременных. Даль­ нейшее развитие теории корреляции позволило разработать так

называемые ..методы ..многомерной статистики, которые для биоло­

га могут считаться составляющими особый раздел биометрии­

..многомерной био..метрии, рассматривающей способы анализа из­

менчивости не одного отдельного признака, а целых их комплек­

сов.

В рамках небольшого послесловия можно дать лишь краткий

вводный обзор многомерных методов и отослать читателя к су­

ществующей специальной литературе, часть которой написана

достаточно доступно для знакомящихся с этим предметом впер­

вые.

Среди признаков, имеющих различную форму варьирования,

многомерные методы лучше разработаны для количественных nе-

u

ременных, тогда как приемы анализа качественных показателеи

интеисивно разрабатывают лишь в течение последних двух деся­

тилетий. Поэтому основное изложение будет касаться первых из

них.

Когда исследователь имеет в своем распоряжении набор из т

признаков, то в качестве характеристик, описывающих располо­

жение некоторой анализируемой совокупности наблюдений на осях измерений этих признаков, можно получить т средних ариф­

метических величин Xt, которые записывают в виде строки

lXl,X2'''''~]'

называемой вектором средних и являющейся многомерным ана­ логом средней арифметической величиНы. Иными словами, в мно­

гомерной статистике вектор средних играет такую же роль, как

и средняя арифметическая величина в одномерной биометрии.

Для любой пары признаков в качестве показателя тесноты их статистической взаимозависимости может быть найдено значение коэффициента корреляции Г// или ковариация COV//. Если будут

найдены все характеристики, которые можно получить для набо-

311

ра m признаков, то их можно записать в виде таблиц

 

-

1

 

 

 

••

 

-

 

 

'12

'13

'1т

 

 

'12

1

'23

••

'2т

 

 

 

 

 

 

1

·..

 

 

 

 

'13

'23

...

'3т

 

 

'1т

'2т

'зm

1

 

а также

 

 

 

 

 

...

 

 

 

 

$12

COUI2

COUI3

COUlm

 

 

...

 

 

COUI2

S22

СОU2З

сои2т

 

 

COUI3

СОU2З

2

.

СОUЗm

 

 

..

 

 

.

.

...

 

 

 

..

 

•••

 

I

 

.

 

 

..

...

 

 

 

COUlm

сои2т

СОUЗm

S2

m

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

v

 

v

первая из которых называется корреляцион,н,ои матрицеи, а вто-

рая - ковариацuoн,н,ой матрицей и включает в себя также значе­

ния m дисперсий признаков Sj2, располагающиеся на диагонали

таблицы. Эти две матрицы описывают закономерности изменчи­

вости и коррелированности признаков, которые можно обнару­

жить для их набора. Ковариационная матрица является много-

u

мерным аналогом дисперсии признака и играет в многомернои

статистике такую же роль, что и дисперсия признака в обычной биометрии.

В соответствии с двумя Э.'1ементами описания изменчивости набора признаков (вектором средних и ковариационной матри­ цей) многомерные статистические методы грубо можно разделить на три крупных класса. 1. Приемы, которые позволяют решать

задачи, аналогичные рассматриваемым в одномерной биометрии.

2. Методы анализа внутригрупповой изменчивости, когда струк­

туру ковариационной или корреляционной матрицы исследуют с

целью выявления и интерпретации закономерностей соотноситель­

ной изменчивости и коррелированности признаков. 3. Методы

анализа межгрупповой изменчивости, когда сопоставляют векто­ ры средних, найденные для нескольких выборок.

Следует заметить, что обычные алгебраические символы в

применении К многомерной статистике становятся малоконструк­

тивными и не позволяют строить по формулам, выписанным в этих символах, вычислительные алгоритмы. Поэтому основным математическим аппаратом многомерной биометрии является матричн,ая алгебра, которая позволяет записывать формулы в

очень компактном виде и получать по ним алгоритмы вычисле­

ний. Для использования тех многомериых статистических мето­

дов, которые могут быть интересны для биолога, достаточно оз­

накомления лишь с элементарными сведениями из теории матриц.

которые почти всегда приводят как приложение к книгам по

многомерной статистике.

312

Второе обстоятельство, которое следует учитывать, касается

вычислительных аспектов многомерной статистики. Действия

над векторами и матрицами в основном несложиы, хотя и трудо­

емки. Отдельные матричные вычисления (нахождение определи­ телей, обратных матриц, собственных чисел и векторов) часто

описываются в книгах по многомерной статистике [4, 11, 17] 1,

где даны рекомендации либо по ручному счету с применением

калькуляторов, либо по составлению программ дЛЯ ЭВМ. Мат­

ричные операции, как правило, входят в программное математи­

ческое обеспечение современных компьютеров.

Многомериые методы - аналоги одномерных. Среди таких

приемов анализа многомерных данных наибольшее значение име­

ют проверки статистических гипотез по отношению к векторам

средних и ковариационным матрицам, которые получены по двум

или нескольким выборкам, извлеченным из двух или нескольких

генеральных совокупностей. Так, при двух выборках проверку достоверности различий векторов средних осуществляют при по­

мощи так называемого Р-критерия Хотеллинга, похожего по кон­

струкции на свой одномерный аналог - t-критерий Стьюдента. При наличии нескольких выборок, в которых найдены векторы

средних, их однородность проверяют с применением многомерно­

го аналога дисперсионного анализа. Для межвыборочной измен­

чивости определяют межгрупповую ковариационную матрицу,

которую сопоставляют с такой же внутригрупповой матрицей в

конструкции специального критерuя, например критерия Уилкса.

Это аналогично сравнению двух дисперсий (межгрупповой и внут­

ригрупповой), аналогами которых являются эти ковариационные

матрицы.

При использовании других многомерных методов очень рас­

пространенным является прием нахождения некоторого нового nрuзнака у на базе набора исходных переменных Xl в виде линей­

ной конструкции

(*)

I<оэффициенты Cl вычисляют таким образом, чтобы обеспечить

признаку у определенные желаемые свойства, которых не име­

ют признаки Х{. Например, для разделения двух генеральных совокупностей (двух подвидов животных, больных и здоровых людей и т. д.) по комплексу признаков Х коэффициенты С; долж­

ны быть найдены так, чтобы у имел минимальную трансгрессию

своих величин в этих генеральных совокупностях. Значения ко­ эффициентов С; у разных признаков позволяют интерпретировать

смысл, который имеет новый признак у, т. е. описать те комплек-

I Цифрами в квадратиых скобках указаны литературиые источники в

списке рекомендуемой литературы к послесловию редактора,

ЗIЗ

сы значений переменных Х, которые свойственны его большим и

малым величинам.

Методы анализа внутригрупповой изменчивости. Приемы мно­

гомерного анализа данных, относящиеся к этому раздеnу, на­

правлены на выявление закономерностей внутригрупповой вариа· ции и коррелированности больших наборов nеременных Х.

Наиболее близок к традиционно используемым методам пар­

ной корреляции и регрессии раздел, включающий в себя множе­ ственную корреляцию и регрессию, который кратко рассмотрен

в настоящем пособии. Уравнение множественной регрессии мож­ но рассматривать как линейную конструкцию типа (*), позволя­

ющую находить на базе большого набора исходных признаков Х такую новую переменную, которая была бы максимально скор­

релирована с (т+ l)-м признаком Хт+l. Эта корреляция называ­ ется множественной. По значениям коэффициентов Cj, которые в

данном случае являются коэффициентами множественной peгpec~ сии, можно из всего набора т признаков Х выделить только n из

них, которые обнаруживают наибольшие значения этих коэффи­

циентов. По уменьшенному набору признаков Х можно построить

новОе уравнение регрессии, основанное на меньшем числе пере­

менных, которое будет более компактным.

Дальнейшим развитием методов множественной регрессии и

корреляции является анализ канонических корреляций и вели­ чин. Здесь весь набор исходных признаков Х делят в соответст­

вии с качественным содержанием задачи на две части, включа­

ющие n и т-n признаков. Необходимо выявить закономерно­

сти признаков, входящих в разные их наборы. Для каждого из

них определяется новый признак:

У=СIХl +С2Х2+"'+СnХn'

Y~~CnHXn+1 +Сn+2Хn+2+'" +СтХт•

Переменные Уl И у!' должны быть скоррелированы между собой максимально тесно. Смысл переменных у может быть ис­

толкован по значениям коэффициентов Cj. Таким образом, мож­ но считать, что Уl и у!' описывают наиболее важную закономер­

ность коррелированности, которая проявляется в статистических

связях признаков Хl, Х2, ... , ХN И Хn+l, Хn+2, ... , Хт• Вместе с тем

эта закономерность может оказаться не единственной, которую

следует рассматривать. Тогда можно выделить другие новые пе­

ременные: У2 и У{, Уз и Уз' и т. д. Новые признаки у называют

каноническими nеременными, а коэффициенты корреляции между

ними - каноническими корреляциями.

Способ анализа корреляций большого набора признаков Х

может быть иным, когда невозможно или нежелательно разде­

лять его на части, а следует рассматривать как единое целое.

314

Наилучшим путем анализа здесь является применение КОМПО­

нентного или факторного анализа. Согласно целям каждого из

них, по корреляционной матрице признаков х находят новые ли­

нейные переменные у, которые обычно бывают не скоррелирован­ ными друг с другом (возможно выделение и связанных перемен­

ных у) и описывают определепные закономерности вариации и

коррелированности исходных признаков. Эти новые переменные

называют в зависимости от используемого метода главными КОМ­

понентами или факторами. По значениям коэффициентов С/ у раз­

ных признаков х можно интерпретировать смысл этих перемен­

ных.

В тех случаях, когда интерпретация оказывается затрудни­

тельной, можно трансформировать эти коэффициенты с помо­ щью специальных приемов, что часто облегчает истолкование

выделенных закономерностей коррелированности признаков х.

Весьма важным является то обстоятельство, что величина

каждой главной компоненты может быть получена у любого объ­

екта исследования (экземпляра, особи, индивида и т. д.). При

этом число главных компонент или факторов, суммарно описы­ вающих весьма значительную часть информации о закономерно­

стях вариации и коррелированности признаков, бывает гораздо меньшим, чем количество этих исходных переменных. Таким об­

разом, применение компонентного или факторного анализа по­

зволяет значительно уменьшить количество анализируемых пере­

менных. Кроме того, главные компоненты являются комплексны­ ми интегративными показателями, каждый из которых зависит

от многих признаков, Что также весьма ценно.

Эти методы используют весьма широко, и им посвящена зна­ чительная литература. Среди наиболее простых изложений мож­

но отметить [2, 3, 4, 5, 10, 13, 14]. Существуют и более сложные, но и более подробные описания этих методов [11, 12, 17].

Методы аиализа межгрупповой измеичивости. При анализе

межгрупповой изменчивости признаков решают обычно две зада­

чи: дискриминации и классификации. В первом случае имеются

две или большее число совокупностей, из которых извлечены вы­ борки. По ним требуется получить так называемое решающее

правило, которое позволяет на основании набора признаков х

правильно отнести взятое наугад наблюдение (экземпляр, особь,

индивид и т. д.) К одной из этих двух совокупностей, причем воз­

можность ошибиться должна быть минимальной. Способы постро­

ения таких решающих правил рассматривают дискриминантным

анализом. При этом на основе информации о генеральных сово­ купностях, получениой по выборкам, находят новый признак у,

u

u

u

которыи отличается минимально возможнои

в даннои ситуации

трансгрессией своих распределений в двух совокупностях. Этот

новый признак называют дискриминантной функцией. Величина

трансгрессии, измеренная тем или иным способом, может послу-

315

жить основой для оценкн вероятности ошнбки при неправильном

отнесенин некоторого наблюдения.

Вопросы, связанные с вычислением и примененнем дискрими­

нантных функций, относительно доступно изложены в [2, 3,4, 15].

Задача классификации наблюдений заключается в выявле­ нни естественного, объективно существующего порядка, присут­

ствующего в наборе выборок, которые относятся к различным ге­

неральным совокупностям, причем их взаимоотношения априор­

но обычно неясны. При решении подобных вопросов использу­ ют методы кластерного анализа, которые также называют мето­ дами распознавания образов илн числовой таксономией.

Кластерный анализ включает в себя осуществление двух

этапов обработки материала. Первый из них заключается в по­

лучении представления о взанмной близости расположения цент­ ров сравниваемых выборок по значениям комплекса признаков.

Для этой цели используют различные методы. Так, для измери­

тельных количественных признаков и многих качественных пока­

зателей по любой паре анализируемых выборок может быть най­

дено значение таксономического расстояния. Его величнна зави­

сит от степенн сходства этих выборок по значениям признаков.

Чем меньше оказываются различия векторов средних, тем мень­

ше будет величина таксономического расстояния.

Существуют различные конструкции таксономических рассто­

яний, среди которых одной из лучших является расстояние Ма­

халанобuса, выгодно отличающееся от других учетом внутригруп­

повых закономерностей коррелированности признаков. Хороший обзор различных конструкций таксономических расстояний дан

в [19]; об этом же можно прочесть в [4]. Для качественных приз­

наков, имеющих альтернативную форму варьировання, могут

быть найдены в качестве мер сходства выборок так называемые

коэффициенты подобия. Здесь по всем признакам подсчитывают­

ся количества совпадающих или несовпадающих вариантов, кото­

рые затем определенным образом нормируются.

Совокупность мер сходства между всеми парамн выборок мо­

жет быть записана в табличном виде так называемой матрицы

расстояний илн коэффициентов подобия. Первая из них может

быть изображена в виде

о

DI2

D

·..

DI/&

DI2

О

D

·..

D2~

. .

.

...

·..

 

D

D

О

.. .

Dз/&

.

..

Dз~

...

DI~

D2~

••

(}

 

 

 

 

где Dlj - расстояние между i-й и j-й выборками; k-число вы­

борок.

316

Эти таблицы являются исходными для выделения групп выбо­

рок, включающих в себя только те из них, у которых взанмные

расстояния относительно невелики. Напротив, сходство выборок

из разных таких групп должно быть небольшим, а расстояния­

значительными. Подобные группы относительно сходных выборок

называют кластерами (образами, таксонами) , а процесс их вы­

деления - кластеризацией.

Существуют различиые методы кластеризации. Так, согласно так называемым агломеративным иерархическим nроцедурам.

которые наиболее часто используют в биологических исследова­

ниях, процесс выделения кластеров осуществляется пошаговым

образом. На первом шаге в матрице находят минимальную ве­ личину расстояния между некоторыми единицами, которые объ­

единяют и в дальнейшем рассматривают как кластер. После на­

хождения расстояний этого кластера с остальными единицами

отыскивают новую минимальную величину Di/, так что образу­

ется новый кластер. Такой процесс последовате.rIЬНОГО укрупне­

ния таксонов продолжают до получения некоторой их структу­

ры. Методы кластерного анализа описаны в [3, 4, 7].

Существует также метод многомерного анализа межвыбо­

РОЧНОЙ изменчивости, который позволяет одновременно решать

как задачи дискриминантного анализа, так и проблемы класси­

фикации. Этот метод называют каноническим анализом (множе­ ственным дискриминантным анализом). В соответствии с ним рас­

сматривают межгрупповые и внутригрупповые корреляционные

матрицы и дисперсии. В результате находят новые линейные

признаки так, чтобы каждый из них разделял анализируемые вы­

борки с достижением мннимальной трансгрессии, т. е. был дис­

кримuнантной функцией. Любая нз них может считаться описы­

вающей некоторую закономерность межгрупповой вариации,

конкретныи

смысл которои истолковывают при рассмотрении

коэффициентов С/ у разных признаков х. Наиболее важные из

этих дискриминантных функций при попарном рассмотрении по­

зволяют получить плоскости, расположение на которых центров

выборок наглядно представляет их взаимоотношения. По этим

графикам возможно выделение кластеров. О каноническом ана­

лизе читатель может прочесть в [1, 4, 20].

Использование вычислительной техники при проведении био­

метрических расчетов. В данном учебном пособии приведены

главным образом алгоритмы, ориентированные преимуществен­ но на ручные вычисления при помощи простейших электронных

калькуляторов. Вместе с тем к настоящему времени существуют

вполне доступные программируемые калькуляторы отечественно­

го производства Б3-34, МК-54, МК-56, МК-61, МК-52, к которым разработаны и опубликованы [6, 8, 16] значительные библиотеки

программ; среди них программы автоматического проведения

биометрических расчетов. Несмотря на невысокое быстродейст-

317

вие этих калькуляторов, их применение позволяет в несколько

раз ускорить проведение биометрических вычислений, а также

исключить многие возможные ошибки.

Гораздо большие возможности открывает использование ЭВМ,

особенно персональных. С принципами их работы и применения читатель может познакомиться по соответствующей литературе [9, 18]. Следует лишь помнить о том, что при написании про­

грамм вычисления биометрических характеристик необходимо

ориентироваться на применение формул и алгоритмов, в кото­

рых фигурируют суммы анализируемых показателей: }.3Х, }.3х2, }":Х3 , }.3х4, }.3Х\Х2 И т. д. Получение этих величин весьма просто

программируется; на их основе могут быть определены средние

величины, коэффициенты асимметрии, эксцесса, корреляции и т. д. Программирование обработки вариационных рядов целе­

сообразно главным образом для получения кривых распределе­

ния, сглаживающих эмпирическую картину.

При вводе данных в ЭВМ полезно предусмотреть програм­ мное выявление в иих ошибок ввода. Для этой цели можно ис­

пользовать, например, простейшую проверку для каждого на­

блюдения выполнения неравенства Xmln:::;;;X:::;;;Xmax. Предельные значения могут быть найдены предварительно и введены в ЭВМ

до начала ввода всего массива данных.

Основной трудностью обработки биометрических массовых

данных на ЭВМ является их точный ввод, исключающий весьма вероятные ошибки. Поэтому целесообразнее оказывается обра­ ботка не отдельных признаков, которая позволяет получить лишь небольшой набор характеристик (среднюю, дисперсию, их ошиб­ ки, коэффициенты асимметрии и эксцесса), а одновременный

Qбсчет сразу всех исследуемых признаков. Это позволяет вычис­

лять кроме перечисленных одномерных показателей для каждой

переменной также и значения коэффициентов корреляции для

всех попарных сочетаний признаков, параметров уравнений рег­

рессии. Для этого следует последовательно вводить в ЭВМ не

отдельные значения одного признака у разных единиц наблюде­

ния, а целые наборы признаков для каждой такой единицы.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]