- •7. Дисперсионный анализ
- •7.1 Основные понятия
- •7.2 Однофакторный дисперсионный анализ
- •7.2.1. Теория однофакторного дисперсионного анализа
- •7.2.2. Планирование эксперимента при однофакторном дисперсионном анализе.
- •7.3 Двухфакторный дисперсионный анализ
- •7.3.1. Общие теоретические соображения
- •7.3.2. Планирование эксперимента при двухфакторном дисперсионном анализе
- •7.3 Трёхфакторный дисперсионный анализ
- •7.3.1 Общие теоретические соображения
- •7.3.3. Планирование эксперимента при трёхфакторном дисперсионном анализе
- •7.4. Многофакторный дисперсионный анализ
- •7.4.1. Общие теоретические соображения
7.3 Двухфакторный дисперсионный анализ
7.3.1. Общие теоретические соображения
При проведении двухфакторного дисперсионного анализа опираются на более сложную модель «чёрного ящика», (см. рисунок) исследуемой системы.
Здравый смысл и очевидные соображения
ИССЛЕДУЕМАЯподсказывают, что для выявленияодновремен-
СИСТЕМА ного влияния факторов А и В на величину отк-
Фактор А Отклик У лика yследуетнесколько разизмерить этот
отклик при разныхуровнях фактора А (на при-
Фактор В мер: а1,а2,а3, а4,....аn) приодном и том же
(например, при bj) уровне фактора В, получив
Рис. 7.4при этомn штук (y1j,y2j, y3j, y4j, ..ynj), по всей видимости, разных, значений отклика, а потомпроделать этоже ещёm – 1 раз, изменяя каждый раз уровень фактора В. Очевидно, что каждое конкретное значениеyijиз множества{yij}измеренных значений отклика будет складываться из реального среднего значенияY, прибавки к нему ± Δyi, обусловленной влиянием (если такое влияние имеет мес- то) фактора Ана данномуровне, (уровне аk) такой же прибавки ± Δyu, обусловленной влиянием (если такое влияние имеет место) фактора В,на очередном(bj) уровне и ошибки ±έ ип измерительного прибора.
Фиксируем этот факт математически: yij =Y± Δyi ± Δyj±έ ип. Это равносильно
(yij –Y)= (± Δyi ± Δyj±έип) и говорит о том, что дисперсияσ2 Генеральной совокупности{y}реальных значение отклика слагается из трёх составляющих:
- σέ2 – дисперсии, обусловленной неточностью измерений(σέ2≡ σип2);
- σА2 – дисперсии, обусловленной ожидаемым влиянием фактора А;
- σВ2 – дисперсии, обусловленной ожидаемым влиянием фактора В.
Аддитивность дисперсии позволяет записать: σ2 = σА2 + σВ2 + σέ2.
Таким образом, и здесь при обработке данных эксперимента, как и раньше, встаёт задача разделениясоставляющих общей дисперсии.
Рассмотрим способы такого разделения.
Прежде всего заметим, что для обозначения количества уровней второго фактора мы здесь используем символ m, которым в первом разделе было обозначено количество повторных измерения при одном и том же значении фактора А. Это «старое» значение символаmнаряду с «новым» сохраняется и здесь, что позволяет сохранить «старую» форму записи основных математических соотношений для случая двух факторов.
Теперь продолжим рассмотрение.
Предварительно следует найти выборочную оценку (sέ2≡s2ип) для дисперсия σέ2, а потомsВ2иsА2и отделить их друг от друга.
Начнём с вычисления общей выборочной дисперсииslj2≡sq2≡s2 на базе полученной в ходе представленного выше эксперимента выборки{yij}, объёмомq=nm.
На базе множества разностей (yij –Y), гдеY=(ylj), i =1,2,3…k,, n, и j=1,2,3,.l ,,mможно сформировать исправленную выборочную дисперсию
sij2 ≡ s2mn≡ s2q ≡ s2 = [(yij)2 –(yij)2] =
= (ij):fij = [СКij – КЧij]:fij,, где:
- q = nm– объём выборки и потомуfij ≡f2 = nm–1,
- СКij ≡СК =(yij)2 –сумма квадратов всех откликов, а
- КЧij≡КЧ=(yij)2 – усреднённый по всей выборке
квадрат суммы откликов.
Величина s2 является выборочной оценкой (s2 ~ σ2) дисперсииσ2 Генеральной совокупности реальных значений отклика. Но и здесь (в случае двух факторов) это –
смешанная оценка (s2 ~σА 2+σ В 2+ σέ2).
Задача разделения дисперсий остаётся актуальной и усложняется. Решать её мы начнём, введя (как и раньше) в рассмотрение n малых выборок{ykj}из общего массива измеренных значений отклика, которые получены принеизменных значениях фактора А. На базе каждой из таких малых выборок, кроме собственной групповой дисперсииsk2 можно вычислитьгрупповое среднеезначение отклика Yk:=yij. Их (и групп, и средних) будет поn штук, все они будутразными, а средние– ещё и отличающимисяот всеобщего среднегоY =yij . Это означает, что будут существоватьnштук разностей типа (Yk –Y), на базе которых длябольшойвыборки можно вычислить некую выборочную дисперсию(Yk–Y)2. А она является оценкой(s2(Yk)≡ s2k ≡sАε2)
межгрупповогоразброса– разброса значений групповых среднихYk относительно всеобщего среднего Y. Очевидно, что этот разброс обусловлен как влияниемфактора А, так и влияниемслучайныхфакторов (потому и индекс «Аε»).
Математически это можно записать так: (Yk–Y)2~ σА 2 + σАип 2 .
Влияние случайных ошибок σ2Аип=σέ2здесь уменьшено вmраз потому, что они входят в левую часть этого соотношения через вычисления (по формуле Yk =yij)группового среднего, при которых (при вычислениях) такие ошибки усредняются. Переписав обсуждаемое соотношение в целом в несколько ином виде (умножив обе его части наm), получаем: s2k ≡sАε2 =(Yk–Y)2 ~ mσ А 2 + σέ2.
Из этого следует, что роль итоговой суммы (∑k) в выражении для выборочной дисперсииs2Аε = (∑Аε2):fАε, обусловленной ожидаемом в этом эксперименте фактора А, играет величинаm(Yk–Y)2,afk≡fАε =n –1.
Это нам уже встречалось в параграфе 7.1, где мы получили:
(∑k) =m[(Yi)2 –(Y)2] =m{КЧА –КЧij},
то есть (∑k) ≡ (ΣАε)= КЧА –КЧij= КЧА –КЧ.
Проведём точно такие жерассуждения относительно малых выборок{yil} из общего массива{yij}, измеренных значений отклика, каждая из которых получена при неизменных значениях (например, приJ= l)фактораВ. Обнаруживаем, что таких выборок (строчных) будетm и что на их базе можно получитьещё однувыборочную оценку соответствующего межгруппового разброса групповых средних– разбросаYl относительно всеобщего среднего Y, обусловленного ожидаемым влиянием фактора В.
s2Вε = (Yl –Y) 2 ~ nσВ2 + σέ2.
Из этого следует, что роль итоговой суммы (∑l)) ≡ (Σ Вε)в выражении для выборочной дисперсииs2l = (∑Вε):f Вε, обусловленной ожидаемом в этом эксперименте фактораB, играет величина
n(Yl–Y)2 af Вε =m–1.
И здесь в итоге имеем:
(Σ Вε)=n[(Yl)2 –(Y)2] =n{КЧВ –КЧij} = [КЧВ –КЧ].
Обобщаем: s2Аε =(Yk–Y)2=[КЧА –КЧ] ~ mσА 2 + σέ2 и
s2Вε = (Yl –Y)2 =[КЧB –КЧ] ~ nσВ2 + σέ2.
С одой стороны, очевидно, что мы нашли раздельные выборочные оценки для дисперсий, обусловленных влияниями каждого фактора. С другой стороны, обе эти оценки –смешанные, в них присутствуют (замешаны) случайные ошибки. Всё это, казалось бы, заставляет нас продолжить поиск несмешанной выборочной оценки для дисперсии воспроизводимостиsвэ2 = (Σвэ):fвэ.
Но, похоже, что делать дальше ничего не нужно. Ведь у нас есть (см. выше) опыт непосредственного нахождения остаточной суммы квадратовдисперсии воспроизводи-мостипутём вычитания (вспомните однофакторный эксперимент, для которого мы получили(Σ вэ)= [СК – КЧА].
Конструируя аналогичным образом (Σвэ) для двухфакторного эксперимента, получаем: (Σвэ)= (Σij)–(Σ Вε)–(ΣАε), а при подробном развёртывании составляющих находим:(Σвэ)= [СКij– КЧij–КЧА +КЧij – КЧB +КЧij], то есть
(Σвэ)= [СКij – КЧА – КЧB +КЧij].
При таком подходе количество степеней свободы fвэ для выборочной дисперсии воспроизводимости (sвэ2) должно бытьfвэ = flj– (fА+ fB)=
= nm-1- (n -1+ m-1) = nm-1- n +1- m+1=
= nm-1- n – m = n(m-1) - (m-1) = (m-1)(n -1).
Следовательно, несмещённой выборочной оценкой для дисперсии воспроизводимости двухфакторного эксперимента должна стать величина
sвэ2 = (Σвэ):fвэ= [[СКij – КЧА – КЧB +КЧij] =
= [[СК – КЧА – КЧB +КЧ].
.Всё это говорит о том, что и при планировании двухфакторного эксперимента можно воспользоваться точно такой жепрямоугольной план-матрицей, которая строилась при планировании однофакторного эксперимента, с тем, однако, отличием, что вместоm–кратного повторения опытов при каждом значении фактора А проводятся те жеmопытов приразных уровнях фактора В(см. макет план-матрицы на следующем листе). В связи с этим,немного изменятсяи алгоритмы обработки данных.
Наглядным образом-аналогом макета таблицы для данных двухфакторного эксперимента могла бы послужить m-этажная стеллаж-этажерка, на полках которой (друг под другом) размещены поn штук ячеек, по которым «разложены» результаты измерений отклика: весь массив{yij}, мощностьюnm.
Изменения алгоритмов обработки данных мы рассмотрим в следующем параграфе, а сейчас вспомним, что последнюю формулу мы «сконструировали по аналогии», опираясь на теоретический анализ однофакторного эксперимента. Убедительней было бы найти подтверждение правомерности такой аналогии путём анализа условий двухфакторного эксперимента, что явилось бы основанием для опоры на эту же аналогию и при трёх-, и при четырёх- (и т. д.) факторном эксперименте. При многофакторном эксперименте вообще. Ниже мы таким анализом и займёмся.
Обратимся ещё раз к малым выборкам. Ещё раз взглянем на одну из nуже рассмотрены выше малых выборок (вертикальный столбец) из общего массива{yij}измеренных значений отклика, которые получены при неизменных значенияхфактора А. Но теперь взглянем уже под другим углом зрения: рассмотрим разброс измеренных значенийyij относительно группового среднегоYi(Yi =yij) внутри каждой малой выборки.
При однофакторном анализе такой разброс был обусловлен толькослучайными ошибками, но здесь при смене номера опытаодновременноизменяется и уровень факто-ра В (этим и объясняется наличие индекс «В»у выборочной дисперсииs2Вl≡s2Вε). Следовательно, только что представленная выборочная дисперсия являетсясмешаннойоценкой для суммы двух дисперсий такой малой выборки:
- дисперсии σВ, обусловленных изменениями уровня фактора В, и
- дисперсии σέ, обусловленной случайными ошибками измерений.
В связи с этим можно записать: s2Вэ =(yij–Yi)2 ~ σВ 2 +σέ2.
Легко заметить, что это соотношение справедливо для любойи, следовательно, длякаждоймалой выборки (столбца) рассматриваемого здесь типа. Следовательно, усреднив это соотношение повсем таким выборкам, мы получимболее точнуювыборочную оценку, для которой уже не нужен исходный «столбиковый» индекс.
s2Ввэ ≡ s2вэ = s2Вi = (ylj–Yl)2 ~ σВ2 + σέ2.
Или: s2вэ ~ σВ 2 + σέ2, то есть (yij –Yl)2 ~ σВ 2 + σέ2.
Это – хороший промежуточный результат в наших стараниях разделить дисперсии разного происхождения, потому, что он даёт возможность, рассмотрев два разныхсоотношения: (yij –Yi)2 ~σВ 2+ σέ2и(Yj–Y)2~ σВ 2 +σέ2,
и разность левых ((ylj–Yl)2 –(Yj–Y)2) их частей. При этом, разностьлевыхчастей сравниваемых нами здесь оценочных соотношений:
[(yij –Yl)2–n (Yj–Y)2] остаётся выборочной оценкой разностиправыхих частей:
Σ В 2 + σέ2– σВ2 –σέ2 =σέ2–σέ2 =σέ2 (1 –) =σέ2().
Это, в свою очередь, позволяет (не «конструировать», а математически точно выразить раздельную (несмешанную) оценку для дисперсииσέ2, обусловленнойтолькослучайными ошибками.
Действительно, умножив обе только что представленные разности на ,
получаем: (σέ2)=σέ2 – с одной стороны, и
[(yij –Yl)2–(Yj– Y)2]=
= [(ylj–Yl)2–n (Yj– Y)2] – с другой.
Всё это означает, что сконструированная здесь оценка
s2вэ = [(yij –Yl)2–n(Yj–Y)2], которая вычисляетсятолько по данным эксперимента, является несмешанной выборочной оценкой для дисперсии воспроизводимостиэксперимента(s2вэ ~ σ2вэ≡ σέ2).
По аналогии с предыдущим параграфом, этот же результат можно представить в несколько иной форме:
s2вэ =(вэ):f Ввэ = [СК вэ– КЧ вэ], где
( вэ ) =[СК вэ – КЧ вэ ]–пока удобныеи чистоформальные обозначения,
в которых: СК вэ =(yij –Yl)2, а КЧ вэ =n(Yj–Y)2.
С каждым из этих соотношений будем разбираться отдельно.
СКвэ =(yij – Yl) 2 =[(yij –Yi) 2]=[(yij)2–(yij)2]=
= (ylj)2 –(yij)2 = СКij–(Al)2= СК– КЧА.
Второе:КЧвэ =n(Yj–Y)2=n[(Yj)2–2YjY + n (yij)2] =
= n(Yj)2 –2n (ylj)(yij)+ n(yij)21] =
= (yij)2 – 2(yij)2 + nm(yij)2]=
= КЧB – (yij)2] = КЧB – КЧ.
Таким образом, записанное вышеформально, соотношение:
(вэ) = [СК вэ – КЧ вэ]=(yij –Yi)2 – n(Yj–Y)2 уточняется:
(вэ) = [СК вэ – КЧ вэ]=СК– КЧА – КЧB + КЧ.
Теперь вспомним, что при однофакторном эксперименте
(Σвэ)= [СКij– КЧА] =(Σlj)–(ΣА) =[СКij– КЧij–КЧА +КЧlj] и сопоставим с тем результатом, который получили только что.
С одной стороны, здесь (в двухфакторном эксперименте), действуя по аналогии, мы получили: (Σвэ)= [СК – КЧА– КЧ B +КЧ].
С другой стороны, только что строго показали (Σвыб)= (Σlj)–(ΣА)–(ΣB).
Но последнее можно переписать:
(Σвэ)= (Σlj)–(ΣА)–(ΣB) =[СКij – КЧij]–[КЧА–КЧij]–[КЧB –КЧij] или
(Σвэ)= [СК – КЧА – КЧB +КЧ].
Оба результата совпадают. Следовательно, приведённые выше математические упражнения показали, что и при однофакторном, и при двухфакторном экспериментах остаточная сумма квадратов (Σвэ), необходимая для вычисления дисперсии воспроизводимости, может быть вычислена по данным экспериментанепосредственнопутём вычитания остаточных сумм факторных дисперсий из остаточной суммы общей дисперсии.
Мы убедились, что выделенные ранее промежуточные величины (СК иКЧ) оказались полезными и при рассмотрении двухфакторного эксперимента. Пригодятся они нам и далее.
При обобщении на случай многих (S) факторов полученный выше результат будет
выглядеть следующим образом: (вэ) = [СК –КЧi +КЧ].
В этом выражении у величин: (вэ), СК иКЧ не проставлены (из-за громоздкости) полагающиеся там поSштук индексов.
Вспомним теперь полученные ранее смешанные оценки:
s2Аε~ mσА2 + σέ2 и s 2 В = ~ nσВ2 + σέ 2
Вычислив s2вэ можно записать:
s2Аε ~ mσА2 + s2вэ и s2 Вε ~ nσВ2 + s2вэ или
{(s2Аε – s2вэ):m} ~ σA2 и {(s2Вε – s2вэ):n} ~ σВ 2
Таким образом, представленный в данном параграфе теоретически двухфакторный эксперимент способен представить достаточно данных для вычисления раздельных выборочных оценок длявсехслагаемых общей дисперсии (σij2 =σА 2+ σВ2 + σέ2) Генеральной совокупности возможных значений отклика исследуемой системы.