Lektsii (1) / Lecture 20
.pdfICEF, 2012/2013 STATISTICS 1 year LECTURES
Лекция 20 |
12.02.13 |
HYPOTHESIS TESTING
Unfortunately it is impossible to minimize the both probabilities of errors. If in this example we replace the threshold 8 to m =9, 10, 11 then we get:
m |
Significance |
Power |
8 |
0.0053 |
0.327 |
9 |
0.012 |
0.455 |
10 |
0.025 |
0.583 |
11 |
0.047 |
0.700 |
Конечно, хотелось бы иметь тесты с маленькой значимостью и большой мощностью, однако нельзя минимизировать обе вероятности обеих ошибок α, β . Поэтому мы будем,
как правило, обращать внимание, в первую очередь, на значимость теста, т.е. стремиться строить тесты с заданной значимостью.
1. Использование доверительных интервалов. Рассмотрим следующую стандартную задачу. Пусть X N (µ,σ) − генеральная совокупность. Пусть H0: µ = µ0 и
пусть альтернатива − одна из трех гипотез Hа: µ ≠ µ0 , Hа: µ < µ0 , Hа: µ > µ0 . Пусть, наконец, задан уровень значимости α и дана выборка x1,..., xn . Рассмотрим следующий
тест:
1) построить 100(1−α)% -ный доверительный интервал CI1−α для µ по x1,..., xn
напомним, что CI |
: µ = x ±t |
(n −1) |
s |
); |
|
||||
1−α |
α / 2 |
|
n |
|
|
|
|
2) если µ0 CI1−α , то H0 не отвергается; если µ0 CI1−α , то H0 отвергается в пользу
соответствующей альтернативы.
Нетрудно проверить, что значимость этого теста равна α . Действительно, по определению доверительного интервала получаем:
Pr(reject H0 | H0 is true) = Pr(µ0 CI1−α | µ = µ0 ) =α .
Заметим, что значимость теста не зависит от вида альтернативной гипотезы. Вопрос о мощности этого теста гораздо более сложный. Объясняется это, в первую
очередь, тем, что надо вычислять вероятность Pr(µ0 CI1−α ) при различных величинах среднего значения µ , т.е. мощность в данном случае зависит от альтернативного значения µ , иными словами, является функцией величины µ . В данном случае получить явное
аналитическое выражение для мощности не удается.
Предыдущий пример убеждает в том, что симметричный доверительный интервал целесообразно использовать в случае двусторонней альтернативы. В случае односторонних альтернатив надо использовать односторонние (какие именно?) доверительные интервалы.
2. Использование тестовых статистик. Заметим, что для двустороннего симметричного доверительного интервала справедливо соотношение
|
|
|
µ |
0 |
CI |
|
|
x −µ0 |
|
<t |
|
. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||
|
|
|
|
|
1−α |
|
|
|
s / n |
|
α / 2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
Действительно, |
|
|
|
|
|
|
s |
|
|
|
|
|
|
|
|
|
|
|
s |
|
|
|
||||||||||
µ |
|
CI |
|
|
x −t |
(n −1) |
< µ |
|
< x +t |
(n −1) |
|
|
|
|||||||||||||||||||
0 |
|
|
|
0 |
|
|
|
|
|
|||||||||||||||||||||||
|
|
1−α |
|
|
α / 2 |
|
|
|
|
n |
|
|
|
|
α / 2 |
|
|
|
|
n |
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
−t |
(n −1) |
s |
< x −µ |
0 |
|
<t |
(n −1) |
s |
|
|
x −µ0 |
|
<t |
/ 2 |
(n −1) . |
|||||||||||||||||
|
|
|
||||||||||||||||||||||||||||||
|
|
|
|
|||||||||||||||||||||||||||||
|
|
α / 2 |
|
|
|
|
n |
|
|
|
α / 2 |
|
|
|
|
|
n |
|
|
s / n |
|
|
|
α |
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Поэтому рассмотренный в 1. тест эквивалентен следующему:
1)вычислить величину t = xs /−µn0 ;
2)в случае Hа: µ ≠ µ0 , если | t |<tα / 2 (n −1) , то H0 , если | t |>tα / 2 (n −1) , то Hа;
вслучае Hа: µ < µ0 , если t > −tα (n −1) , то H0 , если t < −tα (n −1) , то Hа;
вслучае Hа: µ > µ0 , если t <tα (n −1) , то H0 , если t >tα (n −1) , то Hа.
Величина t = xs /−µn0 называется тестовой статистикой (test-statistics). Для ее
запоминания есть простое мнемоническое правило:
test-stat. = estimate −null . S.E.
Подчеркнем важное свойство тестовой статистики:
при нулевой гипотезе тестовая статистика имеет известное (в данном случае t(n−1)) распределение.
3. Р-значение (P-value). Напомним, что в 2. для получения вывода после вычисления тестовой статистики надо было сравнивать ее значение с соответствующей процентной точкой стандартного (например, t-) распределения. Эту же процедуру можно реализовать иначе. Для примера рассмотрим ситуацию: X N (µ,σ) − генеральная
совокупность, H0: µ = µ0 и пусть альтернатива односторонняя: Hа: µ > µ0 . Пусть задан уровень значимости α и дана выборка x1,..., xn . В соответствии с п. 2. надо вычислить
тест-статистику t = xs /−µn0 и сравнить ее величину с tα (n −1) . Это можно сделать, введя
понятие Р-значения (P-value). Обозначим Tn−1 случайную величину, имеющую t- распределение с n −1 степенями свободы.
Определение. Величина Pr(Tn−1 >t) называется Р-значением (P-value) этого теста.
Иными словами, P-value − это вес «хвоста» t(n −1) −распределения вправо от значения t. Очевидно (нарисуйте соответствующий график) что
t >tα (n −1) P-value <α .
Отсюда следует, что при наличии P-value исходный тест модифицируется так:
1)вычислить тест-статистику t = xs /−µn0 и найти P-value;
2)если P-value >α , то H0; если P-value <α , то Hа.
Отметим, что P-value не связано с уровнем значимости α .