Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Учебное пособие С.Д. Шапорев ПРИКЛАДНАЯ СТАТИСТИКА.pdf
Скачиваний:
504
Добавлен:
26.03.2015
Размер:
2.25 Mб
Скачать

5.7. Лабораторная работа № 6. Критерии согласия в статистическом пакете STATGRAPHICS

Критериями согласия называют статистические критерии, предназначенные для проверки согласия опытных данных и теоретической модели. К сожалению, все изложенные в подразд. 5.6 методы без ограничения могут быть применены только к простым гипотезам.

Более трудной, но и более важной для приложений является проверка гипотезы о том, что данная выборка подчиняется определенному параметрическому закону распределения. Параметры этого закона остаются неопределенными, так что гипотеза сложная.

Существуют статистики для проверки таких гипотез, являющиеся функциями неизвестных параметров распределений. Используются и мо-

дификации известных нам статистик, например, статистики χ2 - Пирсона и Dn Колмогорова, их свойства во многом повторяют отмеченные ранее

свойства аналогичных статистик для простых гипотез, однако, распределения все же иные. В целом, при справедливости исходной гипотезы модифицированные статистики для сложных гипотез принимают существенно меньшие значения, чем соответствующие статистики для простых. Это приводит к тому, что уровень значимости статистик для сложной гипотезы всегда меньше уровня значимости этих статистик для простой гипотезы. Таким образом, если полученный уровень значимости для простой гипотезы мал, то уровень значимости для сложной гипотезы еще меньше и эту гипотезу следует отвергать.

В пакете STATGRAPHICS процедуры тестов согласия χ2 и Колмо-

горова находятся в разделе Describe→Numeric Data→Distribution Fitting (Подбор распределений), причем данные по обоим тестам выводятся одновременно. Встроенных распределений, т.е. таких, функция распределения которых может служить теоретической гипотетической функцией F0 (x), всего пять: экспоненциальное, экстремальных значений, логнор-

мальное, нормальное и Вейбулла.

Опишем этапы и последовательность действий при использовании тестов согласия в пакете STATGRAPHICS. Итак, после выбора пункта основного меню Describe→Numeric Data→Distribution Fitting появляется подменю подбора распределений, в котором надо задать имя файла, содержащего исследуемую выборку. Рассмотрим в качестве исходной нормальную выборку объемом 50 единиц с параметрами mX = 6 , DX = 10

под именем NORM из предыдущей лабораторной работы (если ее нет, необходимо смоделировать ее средствами пакета). После набора в графе

142

Рис. 5.23. Окно диалога для выбора гипотетического распределения

DATA подменю подбора распределений имени NORM и щелчка по кнопке ОК появляется заставка Analysis Summary (Сводка анализа) с некоторыми общими сведениями о выборке. Здесь же указываются вычисленные выборочные оценки математического ожидания и дисперсии.

Щелкнем правой кнопкой мыши в любом месте этой заставки и выберем пункт Analysis

Options. Появится меню выбора гипотетического распределения (рис. 5.23), в котором нормальное распределение помечено по умолчанию. Мы будем проверять гипотезу на соответствие распределения выборки нормальному распределению, поэтому оставим точку в поле Normal и щелкнем по кнопке ОК. Числовые

данные при этом в поле заставки Analysis Summary не изменятся. Они изменились бы, если бы мы выбрали другое гипотетическое распределение.

Вместе с заставкой Analysis Summary появилось дополнительное ме-

ню с пунктами Input Dialog, Tabular Options, Graphics Options и Save Results. Выберем пункт Tabular Options и отметим все процедуры этого меню, щелкнув по кнопке All (Все). Укажем назначение всех входящих в это меню процедур. Информация о результатах работы этих процедур по выборке NORM приведена на рис. 5.24, 5.25.

Analysis Summary (Сводка анализа) указывает объем выборки, ее экстремальные значения и оценки математического ожидания и дисперсии.

Test for Normality (Тест на нормальность) содержит вычисленную по

критерию согласия

χ2 -Пирсона статистику проверки нулевой гипотезы

 

: F(x)

 

x mX

 

 

H0

 

 

и ее уровень значимости. Далее следует статисти-

= Φ

σX

 

 

 

 

 

 

 

 

ка теста Шапиро – Уилкса и данные по асимметрии и эксцессу. Эти данные не имеют отношения к рассмотренной нами теории.

Goodness-of-Fit-Tests (Критерии согласия) приводят данные по критериям χ2 -Пирсона и Колмогорова. В двух первых столбцах таблицы результатов Lower Limit и Upper Limit указаны нижние и верхние границы

143

Рис. 5.24. Результаты проверки теста на нормальность выборки и критериев согласия

χ2 -Пирсона и Колмогорова

144

интервалов группировки. В столбце Observed Frequency представлены наблюдаемые частоты, а в столбце Expected Frequency – частоты подобранного гипотетического распределения. Столбец Chisquare содержит значения слагаемых формулы (5.6.1) для каждого интервала группировки.

Нижняя строка включает значение статистики χ2 , число степеней свобо-

ды d.f. (Degree of Freedom) и уровень значимости p-Value.

Число интервалов, нижнюю и верхнюю границы группировки можно задать в специальном подменю Frequency Tabulation Options (Установки таблицы частот) (рис. 5.26), вызываемым щелчком правой кнопки мыши в

Рис. 5.25. Значения квантилей и (или)

Рис. 5.26. Диалоговое окно установки таблицы

критических точек распределения

частот

поле Goodness-of-Fit-Tests и выбором Pane Options во вспомогательном меню. Следует отметить, что число интервалов группировки, указанное пользователем, корректируется с учетом обеспечения условий применимости аппроксимации распределения статистики с помощью распределе-

ния χ2 . Кроме того, для вычисления частот гипотетического распределе-

ния используются оценки матожидания и дисперсии по выборке. Это приводит к тому, что истинный уровень значимости для сложной гипотезы несколько больше, чем вычисленное значение p-Value. Приближенный уровень значимости вычисленной статистики лежит между квантилями

χ2 -распределения с k 3 и k 1 степенями свободы, где k -число ин-

тервалов группировки.

Далее представлены результаты расчетов по критерию Колмогорова. Они включают значения статистик Колмогорова D+ (Estimated Kolmo-

gorov Statistic DPLUS) и D(Estimated Kolmogorov Statistic DMINUS), а также Dn (Estimated Kolmogorov Statistic DN) и минимальный уровень

значимости последней статистики в случае простой гипотезы (Approximate p-Value).

145

Следует правильно интерпретировать большие численные значения уровней значимости в этих тестах. В критериях согласия используется правосторонний критерий значимости.

При этом заданному уровню значимости αзад соответствует критиче-

ская точка χзад2 , являющаяся границей критической области ω и области

принятия решений W \ ω. В пакете STATGRAPHICS в тестах согласия решается «обратная» задача: по вычисленному значению стати-

 

 

 

стики критерия χвыч2 как крити-

 

 

 

ческой точке находится соответ-

 

 

 

ствующая вероятность (p-Value)

αвыч

 

 

события P(χ2 > χвыч2

) (рис. 5.27).

 

αзад

 

Ясно, что если статистика крите-

 

 

 

рия попадает в область принятия

2

2

ω

решения χвы2 ч W \ ω и гипотезу

W \ ω χвыч

χзад

H0 надо принять,

значение p-

 

 

 

Рис. 5.27. Границы критических областей, опре-

Value всегда больше изначально

делеяемые по заданному и вычисленному значе-

заданного уровня αзад ,

которое

ниям уровня значимости

 

 

обычно мало (0.1,

0.05,

0.01 и

 

 

 

тому подобное).

Tail Areas (Площади хвостов) содержат значения функции распределения в пяти точках. Эти значения заполнены по умолчанию, но их можно изменить, вызвав щелчком правой кнопки мыши в поле заставки Tail Areas дополнительное меню и выбрав в нем пункт Pane Options. Появится еще одно подменю Tail Areas Options (рис. 5.28). Введем в соответствующие поля этого подменю значения 3, 6, 9, 11 и 13.5. После щелчка по кнопке ОК информация на заставке Tail Areas for NORM сменится на приведенную на рис. 5.29.

Рис. 5.28. Окно диалога для зада-

 

 

 

Рис. 5.29. Значения квантилей

ния значений квантилей

146

 

Рис. 5.30. Окно диалога для задания уровней квантилей

Critical Values (Критические значения). В этой заставке вычисляются по заданному значению функции распределения (вероятности) p кванти-

ли tp этого распределения.

Эта операция является обратной по отношению к предыдущей процедуре Tail Areas. Необходимые значения вероятностей можно задать вызвав совершенно аналогичным образом подменю Critical Values Options (рис. 5.30).

Зададим значения 0.01, 0.1, 0.5, 0.9 и 0.99. Этим веро-

ятностям будут соответствовать квантили, показанные на рис. 5.25.

Наряду с чисто числовой информацией можно вывести на экран дисплея несколько графиков. Выберем пункт дополнительного меню Graphics Options (рис. 5.31). Для нормальной выборки можно построить шесть гра-

фиков, кроме

графика

 

распределения Вейбулла,

 

ибо выборка этого рас-

 

пределения

не

должна

 

содержать

отрицатель-

 

ных величин.

 

 

 

 

Density Trace (Гра-

 

фик эмпирической функ-

 

ции

плотности)

строит

 

этот

график

по

данным

 

исходной

нормальной

 

выборки

 

NORM

 

(рис. 5.32). Даже на глаз

 

видно, что график имеет

Рис. 5.31. Панель графических параметров при про-

отрица-тельную

асим-

верке гипотез о распределениях

метрию, т.е. более тяжелый левый «хвост» распределения. Действительно, выборочный коэффи-

циент асимметрии этой выборки равен –0.109.

Symmetry Plot (Симметричный график) содержит точки, являющиеся результатом сглаживания выборки скользящей медианой.

147

Рис. 5.32. Графики эмпирической функции плотности и скользящей медианы

Normal Probability Plot (График на нормальной вероятностной бумаге)

строит график эмпирической функции распределения на нормальной ве-

роятностной

бумаге

(рис. 5.33).

Если

xi N(mX , DX ),

то

F(x) = Φ(x mX

σX ).

Применим к этой зависимости функцию Φ1

и

введем переменную z = Φ1(F(x)). Тогда зависимость превращается

в

линейную z = x mX σX . Эмпирическая функция распределения F (x)

в каждой точке вариационного ряда совершает скачок и имеет разрыв первого рода.

148

Рис. 5.33. Графики эмпирической функции распределения на нормальной вероятностной бумаге и кумулятивной кривой

Для проверки нормальности выборки применим функцию Φ1 к се-

 

 

 

 

2i

1

 

рединам этих скачков, в результате получим точки

x , Φ1

 

 

 

в

 

 

 

 

i

 

2n

 

 

 

 

 

 

 

 

 

плосплоскости (x, z). В зависимости от того, насколько хорошо эти точки

ложатся на прямую линию, можно судить о нормальности распределения. Это глазомерный метод проверки нормальности. Даже небольшой опыт с реальными выборками позволяет достаточно уверенно выделять среди них отклоняющиеся от нормальных.

149

Frequency Histogram (Гистограмма частот) в графическом виде представляет таблицу частот выборки после группирования данных на заданном числе интервалов (рис. 5.34).

Distribution Function 1 (Функция плотности распределения) выводит график функции плотности исходного нормального распределения.

Distribution Function 2 (Функция распределения) дает график функции распределения. Все эти шесть графиков приведены здесь для иллюстрации.

Задание 1. Выберите из табл. 3 вид гипотетического распределения и его параметры, смоделируйте соответствующую выборку в пакете STATGRAPHICS и проверьте с помощью критериев согласия пакета соответствие статистического и гипотетического распределений с уровнем значимости α = 0.1.

Рис. 5.34. Гистограмма частот и график функции плотности вероятности

150