Lektsii (1) / Lecture 19
.pdfICEF, 2012/2013 STATISTICS 1 year LECTURES
Лекция 19 |
05.02.13 |
HYPOTHESIS TESTING
(TETST OF SIGNIFICANCE)
Гипотеза − это утверждение относительно генеральной совокупности. Примеры
•Средний месячный доход в данной области не менее 25 000 руб. (генеральная совокупность − работающие жители области).
•Стандартное отклонение времени жизни микросхем производства равно 4 мес. (генеральная совокупность − все произведенные микросхемы производства).
•Распределение семейных расходов на питание в регионе является нормальным
•Не менее 40% имеющих право голоса поддерживают законопроект об ограничении курения в общественных местах.
•и т.д.
Генеральная совокупность идентифицируется с некоторой случайной величиной Х. На начальном этапе мы будем рассматривать гипотезы − утверждения относительно параметров генеральной совокупности. Пусть, например, µ = E( X ) . Тогда типичная
гипотеза, которыми мы будем заниматься, выглядит так: H0: µ = µ0 , где µ0 − некоторое
заданное значение. Говоря неформально, цель тестирования (проверки) − получить на основе случайной выборки x1,..., xn из этой генеральной совокупности свидетельства,
позволяющие делать вывод о правдоподобности или неправдоподобности выдвинутой гипотезы.
Более формально, есть некоторая генеральная совокупность − случайная величина Х и есть нулевая (основная, null hypothesis) гипотеза H0,
например, H0: µ = µ0 и
альтернативная гипотеза Hа,
которая в данном случае может быть одной из трех гипотез:
Hа: µ ≠ µ0 , Hа: µ < µ0 , Hа: µ > µ0 .
В первом случае говорят о двусторонней альтернативе (two-sided alternative), во втором и третьем случаях − об односторонних альтернативах (one-sided alternative).
Тест − это любая процедура, которая путем обработки случайной выборки x1,..., xn выдает
один из двух возможных ответов:
1) не отвергать нулевую гипотезу H0 (not reject null hypothesis);
или
2) отвергнуть нулевую гипотезу H0 в пользу альтернатиыы Hа (reject null hypothesis, and accept alternative hypothesis).
Таким образом, кратко задача тестирования гипотез состоит в построении и исследовании «хороших» тестов. Что значит «хороший тест» будет разъяснено позже. Пример. Автомат фасует кофе по пакетам с номинальным весом 100 гр. На самом деле, в силу наличия неконтролируемых факторов пакеты могут отличаться по весу, и поэтому вес случайно выбранного пакета является случайной величиной Х, распределение которой будем считать нормальным N (µ,σ) (генеральная совокупность). Конструкторы автомата
утверждают, что тот настроен на номинальный вес 100 гр., а точность составляет 4 гр., т.е. σ = 4 . У вас, как у потребителя, есть сомнение относительно номинального веса (в объявленной точности вы не сомневаетесь), вам кажется, что автомат настроен на меньший номинальный вес, и вы хотите, выбрав случайным образом n = 20 пакетов
согласиться или не согласиться с утверждением конструкторов автомата. При этом вы понимаете, что у вас должны быть весьма веские доводы (strong statistical evidence) для того, чтобы говорить о неправильной настройке автомата.
В данном случае генеральная совокупность X N (µ,σ) , причем стандартное отклонение известно (σ = 4 ), нулевая гипотеза H0: µ =100 , альтернатива Hа: µ <100 . Отметим сразу, что выбор альтернативы диктуется содержательной стороной задачи.
Предлагается следующий тест: по 20 наблюдениям x1,..., x20 построить стандартный 95%- ный доверительный интервал CI0.95 и если 100 CI0.95 , то гипотеза не отвергается, если же
100 CI0.95 в пользу альтернативы. В данном случае CI0.95 :µ = x ± zα / 2 σn , µ = x ±1.75
Предположим, что выборки делали три раза и были получены следующие результаты: 1) x =98, µ =98 ±1.75 2) x =99, µ =99 ±1.75 3) x =102, µ =102 ±1.75
В соответствии с тестом в первом и третьем случае нулевая гипотеза отвергается в пользу альтернативы, во втором − нулевая гипотеза не отвергается.
Отметим два важных обстоятельства, демонстрируемых этим примером.
1. Один и тот же тест может давать разные выводы, поскольку используется случайная выборка x1,..., xn в то время, как сами гипотезы не имеют никакого вероятностного
содержания. Это общая черта всех тестов.
2. В случае 3) результат теста выглядит явно неадекватным: выборочное среднее больше 100, но согласно тесту нулевая гипотеза должна быть отвергнута пользу альтернативы µ <100 , что противоречит здравому смыслу. Причина этого состоит в том, что нами
использован симметричный доверительный интервал, а данном случае, по-видимому, целесообразнее воспользоваться односторонним интервалом.
Thus the outcome of any test may be erroneous:
type one error reject |
H0 | H0 is true; |
type two error |
not reject H0 | Ha is true. |
The quality of a test can measured by the probabilities of errors. Let’s denote
α= Pr(type I error) = Pr(reject H0 |H0 is true) ,
β= Pr(type II error) = Pr(not reject H0 |Ha is true) .
Definition. The number α is called the significance (значимость) of a test. The number 1−β is called the power (мощность) of a test.
Example. Let the proportion of defective items produced on some assembly line is 9%. Some actions is planned to improve the quality and to decrease this proportion to 5%. It is decided to run the following test after the action:
Randomly select 200 details and if the number of defective details is not greater than 8 the action is considered as successful, otherwise the action is considered as useless.
Here the population is the set of all produced details. Let π be the proportion of defective details after the action. Then the null hypothesis is
H0 : π = 0.09 while the alternative is
Ha : π = 0.05 .
The proposed test may be described as follows:
1)Randomly select n = 200 details and calculate the number X of defective details;
2)If X ≤8 then H0 is rejected and Ha is accepted; if X >8 then H0 is not rejected.
Then
significance = α = Pr(reject H0 |H0 is true) = Pr( X ≤8 | π = 0.09) = 0.0053 , power = 1−Pr(not reject H0 |Ha is true) =1−Pr( X >| π = 0.05) = 0.327