Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Смольянов. тексты лекция

.pdf
Скачиваний:
29
Добавлен:
15.03.2016
Размер:
1.22 Mб
Скачать

100

mY

=

2

 

=

 

5,3

 

 

= 0,87 ;

 

 

I

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

I

 

n K

 

 

 

 

9 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

=

 

4,7

 

 

= 0,82 .

m Y

 

 

II

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

II

 

 

n K

 

 

 

 

 

 

9 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Выполним то же и для уравнений параболы, используя данные табл. 10.5:

 

=

2

=

 

1,68

 

 

= 0,53 ;

m Y

 

I

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

I

 

n K

 

 

 

 

9 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

m Y

=

=

 

1,43

 

 

= 0,49 .

 

II

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

II

 

 

n K

 

 

 

 

 

 

9 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Оценка эффективности уравнения. Оценка эффективности (информационной ценности) уравнения, по данным А.А. Пижурина и М.С. Розенблита [12], производится по формуле:

Fэф

=

Sc2

,

(10.9)

S

2

 

 

 

o

 

 

где Fэф - показатель эффективности;

S с2 - дисперсия относительно среднего значения;

S о2 - остаточная дисперсия.

Величина Fэф показывает, во сколько раз точнее описывает результаты

эксперимента полученное уравнение, чем простое среднеарифметическое ( у ).

Регрессионная модель признается эффективной, если Fэф > 3…5. Таким обра-

зом, Fэф является результатом соотношения двух видов выборочных дисперсий

( S2 ), каждая из которых представляет частное от деления суммы квадратов отклонений на число степеней свободы.

Вычисление дисперсий первого вида производится по формуле

 

N

(yi

 

)2

 

 

 

 

y

 

fc = N 1,

 

S c2 =

i = 1

 

,

(10.10)

(10.11)

 

 

 

 

fc

 

 

 

где Sc2 – дисперсия относительно среднего значения; N – число опытов (наблюдений);

 

 

 

 

 

 

 

 

101

 

 

 

уi

опытные

данные отдельных наблюдений;

 

 

 

 

 

 

 

 

 

 

у – среднеарифметическое значение из всех опытных данных;

 

fc – число степеней свободы дисперсии Sc2 .

 

Вычисление дисперсий второго вида производится по формуле

 

 

 

 

N

(yi

 

i )2

 

 

 

 

 

y

 

 

 

Sо2 =

i=1

 

,

(10.12)

fо = N К ,

(10.13)

 

 

 

 

 

 

fо

 

 

 

где Sо2 – остаточная дисперсия;

N – число опытов (наблюдений);

уi – опытные данные отдельных наблюдений;

уi – теоретические данные по уравнению регрессии;

fo – число степеней свободы дисперсии;

К – число коэффициентов уравнения регрессии.

Данные вычислений величины отклонений, числа степеней свободы и дисперсий двух видов, показанные в табл. 10.7, позволяют установить, что все анализируемые уравнения, имеющие Fэф = (17,63…55,83), следует признать эффективными.

4 Общие принципы выбора оптимальной модели

Для удобства обозначения в табл. 10.7 показаны исходные данные для

расчета четырех основных критериев ( r1 , 2 , my , Fэф ), необходимых при выборе оптимальной модели для выравнивания наблюдений.

Очевидно, что уравнение будет «работать» тем точнее, чем меньше вели-

чина показателей my , 2 и чем больше r1 , Fэф . В то же время при выборе оптимального уравнения, кроме этого еще необходимо принимать во внимание следующие обстоятельства:

1 Следует учитывать соответствие выбранной модели природе исследуемого процесса, что требует от экспериментатора наличие специальных знаний.

2 При прочих равных условиях следует отдавать предпочтение той модели, которая является более простой и получена менее трудоемким путем.

102

За применение указанного принципа выбора функции высказывается А.З. Швиденко, рекомендующий отдавать предпочтение наиболее простым из них, желательно линейным или тем функциям, которые путем алгебраических преобразований могут быть приведены к линейному виду (показательные, степенные, логарифмические и гиперболические функции).

Учитывая вышеизложенное, выбор оптимальной модели в рассматривае-

мом примере можно свести к следующему. Во всех моделях r1 > 0,95; Fэф > (3…5). Соотношение Д Н соответствует природе исследуемого процесса, т.е. с

увеличением толщины дерева наблюдается закономерное увеличение его высоты. Следовательно, в качестве оптимальной модели нужно признать одно из уравнений прямой линии как более простое, чем уравнение параболы второго порядка. При этом необходимо еще раз подчеркнуть особенности применения метода координат избранных точек. Этот достаточно простой по трудоемкости метод при удачном выборе точек позволяет получить уравнение, точность «работы» которого практически не отличается от уравнения, полученного гораздо более трудоемким путем – методом наименьших квадратов.

Однако в том случае, если руководствоваться абсолютной величиной

2 , то при более ответственных исследованиях следует отдать предпочтение уравнению параболы, у которого 2 = (1,43…1,68), что в три раза меньше, чем у прямой, где 2 = (4,7…5,3). В то же время необходимо иметь в виду, что выражение этих исходных данных по другой линии регрессии (параболе третьего порядка, гиперболе или других функциях) может позволить подобрать уравнение, обеспечивающее более высокую степень аппроксимации.

Вопросы для самопроверки:

1 Что такое регрессия?

2 Цели и задачи регрессионного анализа. Его этапы.

3 Сущность графического выравнивания.

4 Определение коэффициентов уравнений.

5 Выравнивание по уравнению прямой линии.

6 Метод наименьших квадратов.

7 Метод координат избранных точек.

8 Выравнивание по уравнению параболы.

103

9 Оценка точности выравнивания по М.Л. Дворецкому.

10 Мера выравнивания.

11 Оценка несовпадения исходных и вероятных значений.

12 Ошибка уравнения, оценка эффективности уравнения.

13 Выбор оптимальной модели.

ЛЕКЦИЯ XI

Дисперсионный анализ однофакторного комплекса

План лекции

1 Сущность и метод дисперсионного анализа.

2 Основные понятия.

3 Дисперсионный анализ однофакторного комплекса.

1 Сущность и метод дисперсионного анализа

В силу длительности периода выращивания спелого леса, наблюдение долгое время оставалось практически единственным способом познания у лесоводов. Однако решение проблемы повышения продуктивности лесов и улучшения их качественного состава потребовало более активного вмешательства в жизнь леса. Сейчас в лесном деле широко применяются селекция и генетика, внесение удобрений и биологические методы защиты леса от вредителей и болезней. Но прежде, чем все новое получает путевку на производство, оно должно быть апробировано в реальных условиях.

Чтобы внедрить в лесохозяйственное производство новый вид или сорт тополя, например, требуется экспериментально доказать его преимущества в продуктивности, морозоустойчивости или фитоустойчивости. Для этого исследователь закладывает опыт на нескольких (больше двух) небольших участках, где наряду с другими известными видами для сравнения высаживается новый гибридный вид.

Таким образом, в современном лесоводстве наряду с наблюдением используется более совершенный метод, характеризующий более высокую степень познания – эксперимент или опыт. Не следует, однако, думать, что опыт исключает наблюдение. Результаты опыта познаются только через наблюдение. Эти категории познания неотделимы друг от друга. Однако особенности эксперимента потребовали создания особых способов обработки его результатов.

104

Дисперсионный анализ и представляет собой наиболее совершенный современный метод статистической обработки опытного и научного материала.

Опыт в лесу не может повторяться много раз, так как на это уйдет очень много времени. В то же время размеры опытных участков не велики по сравнению с площадью, на которых результаты опыта могут быть распространены. Например, опыты постепенных рубок на Северном Кавказе проведены были всего лишь на нескольких десятках га, а распространены на тыс. га, т.е. объем выборочной совокупности (опытные участки) составлял несоизмеримо малую часть генеральной совокупности. Результаты опыта представлены, как правило, несколькими (более двух) малыми выборками с числом наблюдений до двухтрех десятков.

Специфика малых выборок и их особое сочетание в опыте потребовало создание новых методов обработки экспериментального материала.

Эксперимент возник раньше всего в сельском хозяйстве. Поэтому методика обработки малой выборки впервые была применена в агробиологических исследованиях Д. Снедекора, Р. Фишера, Б. Доспехова. Позднее она была заимствована лесоводами для своих практических опытов.

Проведение полевого опыта требует тщательного планирования исследования, методической разработки отдельных этапов и изучения окружающих условий. Планирование научного эксперимента включает выбор темы, определение задачи и объема исследования, изучение и анализ состояния вопроса, создание рабочей гипотезы, состояние программы и методики.

Условия осуществления опыта должны быть типичными для всей генеральной совокупности, иначе полученные результаты не могут быть перенесены в условия лесохозяйственного производства.

Методика эксперимента предполагает определение числа вариантов и повторностей, размер опытных объектов, метод учета результатов, организацию опыта во времени и пространстве.

При постановке эксперимента наряду с многочисленными причинами, определяющими варьирование (разнообразие) результатов опыта, действует такой, как правило, контролируемый фактор, изучение которого является основной задачей исследователя. Причем этот фактор исследователь по своему усмотрению может регулировать (изменять степень воздействия): например, на одном участке внести 20 кг фосфорных удобрений на 1га, на другом – 50 кг, на третьем – 100 кг и т.д. Естественно, что разное воздействие приведет к варьированию результатов опыта.

105

Анализируя подобный материал, английский ученый Р. Фишер пришел к плодотворной идее выделить варьирование, создаваемое изучаемым фактором, и оценить результаты не по средним значениям, а путем более глубокого анализа показателей варьирования (разнообразия). Для этого Р. Фишер использовал или суммы квадратов отклонений, или средние квадраты отклонений, названные им дисперсией. Поэтому разработанный Р. Фишером метод называется

дисперсионным анализом.

2 Основные понятия

Дисперсией называется сумма квадратов отклонений (или средний квадрат отклонений) отдельных вариант (V) от средней арифметической величины (М). Дисперсия (лат. disperses – рассеивание), как и основное отклонение, характеризует степень разнообразия (варьирования) отдельных вариант ряда вокруг среднего значения. Основное отклонение (δ ) определяется по формуле

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

δ =

(α2n)

,

 

(11.1)

 

 

 

 

N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где α = W M ;

 

 

 

 

 

 

 

 

 

 

n – частота соответствующего класса;

 

 

N – объем всего ряда.

 

 

 

 

 

 

 

Если ряд не объединен в классы, то α = V М , где V – значение от-

 

 

 

 

 

 

 

 

 

 

дельных вариант и δ =

α 2

, а α 2 = (V М )2 - есть сумма квадра-

N 1

 

 

 

 

 

 

 

 

тов отклонений, называемая дисперсией (Д): Д

= α 2 или Д

= α 2 n

(11.2)

Для малой выборки

δ2 = α2 ;

отсюда

δ 2 (N 1 ) =

α 2

; значит

 

 

 

 

N 1

 

 

 

 

Д = δ 2 (N 1), а δ 2 =

 

Д

 

 

 

 

(11.3)

 

N 1

 

 

 

 

 

 

 

 

 

 

δ 2 - называют вариансой.

Таким образом, дисперсия, варианса и основное отклонение являются показателями изменчивости признака и находятся в тесной взаимосвязи друг с другом.

Действующие факторы и результативные признаки. Признаки, изменяющиеся под действием тех или иных причин, называются результативны-

106

 

 

ми. Действующие на результативный признак

причины

называют

факторами. Результативные признаки: высота и диаметр стволов, прирост, вес семян, объем и т.д. Действующие факторы: температура воздуха, влажность и богатство почвы, различная интенсивность изреживания древостоя, удобрения и т.д.

При планировании эксперимента факторы делят на контролируемые (организованные) и не контролируемые (не организованные) исследователем. Регулируемый фактор (один или несколько) представлен в опыте различными степенями воздействия, называемыми градациями или вариантами опыта.

Рассмотрим несколько примеров постановки эксперимента.

1)Выясняется влияние предпосевного намачивания желудей на их всхожесть в течение 0 часа (контроль); 2; 12; 24 и 72 часов. Таким образом, 0; 2; 12; 24 и 72 часа – градации фактора или варианты опыта.

2)В лаборатории изучают действие t0 на сроки окукливания дубовой листовертки. Следовательно 160; 180; 200; 220 и 240 – есть градация действующего фактора (варианты опыта).

3)Исследуется влияние условий местопроизрастания на прирост в высоту 2-летних сеянцев сосны. Градациями фактора будут:

А1

А2

В2

С2

 

 

 

 

Сухой бор

Свежий бор

Свежая суборь

Свежая сложная суборь

 

 

 

 

Впроцессе обработки данных обязательно следует учитывать градации фактора. Под действием фактора различной силы в эксперименте организуются отдельные группы исследования (варианты опыта). Последние своим действием образуют градации результативного признака. Кроме того, при постоянной степени воздействия регулируемого фактора возможно наличие повторностей результативного признака в опыте. Например, при одной и той же дозе удобрения спелых сосновых лесов – 200 кг/га прирост на 1 га составил в одном случае 6,8 м3/га, в другом – 6,1 м3/га, в третьем – 7,4 м3/га.

Врезультате осуществления эксперимента и наблюдения за ним, для обработки результатов строится дисперсионный комплекс, где учтены варианты и повторности.

Дисперсионный комплекс обычно представлен особой таблицей, где выборочная совокупность сформирована для изучения эффективности действия организованных факторов на результативный признак по вариантам. При изучении действия одного фактора комплекс называется однофакторным; двух факторов – двухфакторным, а трех и более – трех- и многофакторным. Если

107

во всех градациях подбирается одинаковое число вариант, дисперсионный комплекс называется равномерным, а при неодинаковом числе – неравномерным.

Результаты опыта, представленные в дисперсионном комплексе, характеризуются разнообразием (варьированием) под влиянием многих причин. Величина их общей вариации может быть измерена суммой квадратов отклонений отдельных вариант от средней арифметической величины, т.е. дисперсией. Общее варьирование можно разложить на две части. Одна часть отражает изменчивость, вызываемую действием учитываемого в опыте фактора, а другая является следствием совокупности случайных, неучитываемых причин. Эти две составляющие образуют общую меру изменчивости. Если варьирование характеризовать дисперсиями, то будем иметь:

До = Дф + Дс ,

(11.4)

где До – общее варьирование или общая дисперсия; Дф – варьирование, вызываемое регулируемым в опыте фактором или

факториальная дисперсия; Дс – случайное варьирование, следствие множества причин (неучиты-

ваемых) – случайная дисперсия.

Сущность дисперсионного анализа заключается в установлении статистического влияния регулируемых факторов на изучаемый признак путем разложения общей дисперсии (До) на составляющие ее части (Дф и Дс). Дисперсионный анализ позволяет определить силу влияния и достоверность действия изучаемого фактора в опыте.

3 Дисперсионный анализ однофакторного комплекса

Схему проведения дисперсионного анализа разберем на конкретном примере. В лабораторных условиях был заложен опыт по определению влияния продолжительности снегования семян лиственницы европейской на появление всходов на 15 день после посева.

Действующий фактор: снегование различной продолжительности; результативный признак: % всходов лиственницы на 15 день после посева.

Число повторностей – от 3 до 5 вегетационных сосудов по отдельным вариантам опыта. Во всех вариантах строго выравнены почвенные условия, происхождение и способ хранения семян, сроки посева и полива, продолжительность светового дня. В итоге получены следующие результаты (табл. 11.1).

108

Таблица 11.1

Всхожесть семян лиственницы европейской на 15 день после посева в зависимости от продолжительности снегования

Повторности

Всхожесть семян по градациям действующего фактора, %

 

 

 

 

 

 

 

контроль

2 недели

4 недели

6 недель

8 недель

 

 

 

 

 

 

1

2

4

5

9

3

 

 

 

 

 

 

2

3

3

6

7

6

 

 

 

 

 

 

3

1

6

4

6

5

 

 

 

 

 

 

4

-

3

6

6

6

 

 

 

 

 

 

5

-

-

9

-

-

 

 

 

 

 

 

Задача исследования: выявить степень и достоверность влияния снегования на всхожесть семян лиственницы европейской на 15 день после посева.

Построение дисперсионного комплекса. С учетом градаций вариантов, прежде всего, построим таблицу дисперсионного комплекса и проведем необходимые расчеты (табл. 11.2).

Таблица 11.2 Дисперсионный комплекс по изучению снегования семян лиственницы

европейской на появление всходов на 15 день после посева

Повторности

Всхожесть, % градациям фактора (варианты)

опыта

 

 

 

 

 

 

1

2

3

4

5

Итого

 

контр.

2 нед.

4 нед.

6 нед.

8 нед.

 

 

 

 

 

 

 

 

1

2

4

5

9

3

23

 

 

 

 

 

 

 

2

3

3

6

7

6

25

 

 

 

 

 

 

 

3

1

6

4

6

5

22

 

 

 

 

 

 

 

4

-

3

6

6

6

21

 

 

 

 

 

 

 

5

-

-

9

-

-

9

 

 

 

 

 

 

 

Число повторностей по

3

4

5

4

4

N = 20

отдельным вариантам (n)

 

 

 

 

 

 

Сумма % всхожести по

6

16

30

28

20

ΣΣ

повторностям опыта

 

 

 

 

 

V=100

( V )

 

 

 

 

 

 

 

 

 

 

 

 

 

Групповые средние (Мг)

2

4

6

7

5

Mo=5

 

 

 

 

 

 

109

Подсчитаем число вариант по повторностям опыта (n), общее число вариант комплекса (N), сумму % всхожести по градациям (V ) и общую сумму

всех вариант (∑∑V ). Общая средняя арифметическая комплекса ( Mo) равна

∑∑V = 100 = 5 .

N 20

Средние по градациям (Мг – так называемые групповые средние) соответ-

ственно равны Мг = V . n

Теперь можно приступать к анализу различных типов варьирования в комплексе.

Упрощенная схема расчета дисперсий. Ход непосредственного вычисления дисперсий, исходя из их понятий, хотя и более нагляден, однако осложнен большим числом арифметических действий. С целью облегчения расчета в статистике разработаны упрощенные способы вычисления дисперсий. Ниже излагается способ расчет дисперсий, используемых на практике, применительно к рассматриваемому примеру.

Вспомогательные расчеты. 1 Сумма всех вариант комплекса (∑∑V ) = 100.

2 Число вариант в комплексе (N) = 20.

3 Средний квадрат суммы всех вариант ряда (S) равен:

 

 

 

 

 

 

 

S =

(∑ ∑ V )

=

100

2

= 500 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N

20

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4 Сумма средних квадратов суммы вариант по градациям комплекса рав-

на S =S1 +S2 +...+Sn

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где S1, S2

и т.д. – средние квадраты суммы вариант комплекса по

соответствующим градациям.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S1

=

(V1

)2

=

6 2

 

= 12 ;

 

 

 

 

S 2

=

(V 2 )2

=

16 2

 

= 64 ;

 

n1

 

3

 

 

 

 

 

 

n2

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S 3

=

 

(V3 )2

=

30

2

 

= 180 ;

 

 

 

 

S 4

=

 

(V 4 )2

 

=

 

28

2

= 196 ;

 

n3

5

 

 

 

 

 

 

 

n4

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S 5

=

 

(V5 )2

=

20

2

 

= 100 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n5

4