4.5. Рациональные вычислительные схемы для табл. 6.10
Запишем суммы квадратов несколько в иной, но более удобной форме. Для этого получим вспомогательные суммы по каждой ячейке (индекс j) и по соответствующим факторам(Tij., Ti.k, T.jk). Нам будут также нужны суммы по двум факторам(Ti.., T.j. , T..k), а также общая сумма
.
Правильность подсчета сумм можно контролировать по вспомогательным равенствам:
.
С учетом сказанного, суммы, приведенные в табл. 6.10, можно расписать следующим образом:
;
;
.
Другое главное влияние взаимодействия двух соответствующих факторов можно получить по аналогии с оценкой S1 иS4 . Член S7, соответствующий взаимодействию трех факторов, можно также выразить с помощью вспомогательных сумм, но так как в него будут входить уже восемь членов, то обычно эту сумму получают вычитанием всех других сумм из общейS. Если все же выражениеS7 нужно для проверки предыдущих арифметических выкладок, то его можно вычислить как
.
Как видно из формул, даже при малом количестве данных эти вычисления становятся довольно громоздкими и поэтому такой вид дисперсионного анализа выполняется, как правило, с использованием электронныхтаблиц.
§ 5. Некоторые вопросы преобразования данных
Довольно часто предполагается, что генеральная совокупность распределена нормально. Когда это не так, то все предложенные к рассмотрению и использованию методы не могут применяться, так как построенные отношения в таблицах дисперсионного анализа будут соответствовать некоторому неизвестному распределению, а точные критерии значимости становятся непригодными. Изучать эффект отклонения от нормального закона для описанных в работе критериев - длительная и утомительная работа. Более того данных может быть достаточно большое разнообразие, следовательно, и подобных критериев должно быть не меньше. Значит, самый надежный путь - это преобразовать данные таким образом, чтобы отклонения от нормального закона распределения были бы небольшими1.
Одним из методов приведения данных к нормальному виду считается логарифмирование2. Когда дисперсия представляет собой некоторую функцию средней, тогда можно воспользоватьсяметодом стабилизации совокупности.
Предположим, что xиy- переменные, связанные между собой некоторой функциональной зависимостьюy = f(x)(например,f(x)может быть регрессионнoй зависимостью). Нам надо подобрать функциюg(x) таким образом, чтобы дисперсия уyбыла бы более стабильной, чем дисперсия у х3. Предположим, что переменнаяxраспределена относительно среднейmснебольшим стандартным отклонением, тогда в первом приближении можно предположить, чтоy = =f(m)+ (x - m) g(x), откуда среднее значениеyравноf(m), адисперсия y может быть вычислена как|g(m)|2(дисперсия x).
Если при этом допустить, что дисперсия xможет быть выражена некоторой функцией отm, которую обозначим какq(m), а дисперсия y при этом должна оставаться стабильной и постоянной (допустим, равной А), то тогда на основаниидвух последних выражений имеем
или ,
что дает подходящую форму для преобразования данных. Например, если предложить к рассмотрению распределение Пуассона, в котором q(m) = m, то тогда последний интеграл может быть вычислен как
.
Это значит, что подходящим преобразованием для данных, делающих дисперсию независящей от среднего значения, должно быть . Это преобразование с извлечением квадратного корня обычно применяется, когда есть данные о том, что исходный ряд может иметь распределение Пуассона или быть преобразованным к нему. Если это не так, то можно предположить иное преобразование. Довольно полная сводка таких преобразований приводится в работе [Bartlett, 1947].
1Этот метод приближения линейной комбинацией средних квадратов с помощью среднего квадрата с некоторым новым числом степеней свободы принадлежит Саттерсвэйту [Satterthwaite, 1946] и Уэлчу [Welch, 1946].
1 По общему мнению современных авторов при применении дисперсионного анализа можно допустить умеренные отступления от нормального закона распределения.
2 Этот способ преобразования данных применим в случае, когда данные имеют довольно большую дисперсию по сравнению с нормальной.
3Без ограничения общности можно и наоборот. Самое главное при этом добиться стабилизации дисперсии хотя бы по одной из переменных. Здесь предложено стабилизировать дисперсию по у, так как у является независимой переменной.