Планирование эксперимента - лекция07
.pdfПроцентили
Задача (об определении доверительных границ к процентилю). Вычислить двусторонние доверительные границы для медианы с p=0,05.
Решение. Пусть x1, x2 ,..., xN – набор из N наблюдений, а
X p ее p-процентиль. Случайная величина ξ – количество наблюдений со значениями, меньшими X p .
Тогда по определению процентиля ξ имеет биномиальное распределение с числом наблюдений N и вероятностью p.
Процентили
Оценка |
Кол-во |
Кум. кол-во |
% |
Кум. % |
10 |
107 |
439 |
24,5% |
100,0% |
9 |
98 |
331 |
22,2% |
75,5% |
8 |
112 |
234 |
25,5% |
53,3% |
7 |
68 |
122 |
15,5% |
27,8% |
6 |
28 |
54 |
6,4% |
12,2% |
5 |
11 |
25 |
2,5% |
5,8% |
4 |
5 |
14 |
1,1% |
3,3% |
3 |
3 |
10 |
0,6% |
2,2% |
2 |
2 |
7 |
0,4% |
1,6% |
1 |
5 |
5 |
1,2% |
1,2% |
Всего: |
439 |
|
100,0% |
|
|
|
|
|
|
|
n |
|
|
Оценка снизу: |
C439i |
0,5 i 1 0,5 439 i 0,025 |
n 199 |
|
i 0 |
|
|
|
439 |
|
|
Оценка сверху: |
C439i |
0,5 i 1 0,5 439 i 0,025 |
n 240 |
i n
Критерий «хи-квадрат»
Часто вместо сравнения одной частоты с вероятностью нужно сравнивать наборы частот и вероятностей.
Пусть изучаемая величина может принимать n
разных значений с вероятностями pk , а из N наблюдений k-тое значение встретилось Nk раз.
Определение достоверности отличия набора частот Nk N от их вероятностей pk происходит по следующей
схеме.
Критерий «хи-квадрат»
Схема проверки:
1)Для каждого k определяется ожидаемое количество наблюдений Npk
2)Для каждого k определяется существенность разности ожидаемого и фактического:
N Np 2
k k Npk k
3)Вычисляется общая существенность различий:
N
k
k1
4)Определяется вероятность p того, что случайная величина, распределенная как 2 с N–1 степенями свободы принимает значения, равные или большие .
Критерий «хи-квадрат»
VS
|
Оценка |
% |
|
|
|
|||
|
1 |
2 |
1 |
|
|
2 |
|
|
10 |
107345 |
61189 |
24,5% |
|
|
25,6% |
58505 |
123,1 |
9 |
97572 |
55860 |
22,2% |
|
|
23,4% |
53179 |
135,2 |
8 |
111938 |
60455 |
25,5% |
|
|
25,3% |
61009 |
5,0 |
7 |
68123 |
34777 |
15,5% |
|
|
14,5% |
37129 |
148,9 |
6 |
28268 |
13892 |
6,4% |
|
|
5,8% |
15407 |
148,9 |
5 |
10978 |
5422 |
2,5% |
|
|
2,3% |
5983 |
52,6 |
4 |
4697 |
2328 |
1,1% |
|
|
1,0% |
2560 |
21,0 |
3 |
2809 |
1450 |
0,6% |
|
|
0,6% |
1531 |
4,3 |
2 |
1773 |
963 |
0,4% |
|
|
0,4% |
966 |
0,0 |
1 |
5165 |
2748 |
1,2% |
|
|
1,1% |
2815 |
1,6 |
Всего: |
438668 |
239084 |
100,0% |
|
|
100,0% |
|
640,7 |
Критерий «хи-квадрат»
|
Оценка |
% |
|
|
|
|||
|
1 |
2 |
1 |
|
|
2 |
|
|
10 |
107345 |
61189 |
24,5% |
|
|
25,6% |
58505 |
123,1 |
9 |
97572 |
55860 |
22,2% |
|
|
23,4% |
53179 |
135,2 |
8 |
111938 |
60455 |
25,5% |
|
|
25,3% |
61009 |
5,0 |
7 |
68123 |
34777 |
15,5% |
|
|
14,5% |
37129 |
148,9 |
6 |
28268 |
13892 |
6,4% |
|
|
5,8% |
15407 |
148,9 |
5 |
10978 |
5422 |
2,5% |
|
|
2,3% |
5983 |
52,6 |
4 |
4697 |
2328 |
1,1% |
|
|
1,0% |
2560 |
21,0 |
3 |
2809 |
1450 |
0,6% |
|
|
0,6% |
1531 |
4,3 |
2 |
1773 |
963 |
0,4% |
|
|
0,4% |
966 |
0,0 |
1 |
5165 |
2748 |
1,2% |
|
|
1,1% |
2815 |
1,6 |
Всего: |
438668 |
239084 |
100,0% |
|
|
100,0% |
|
640,7 |
|
|
|
|
|
|
|
|
|
Вычисления дают = 640,7 и p=1,0. Т.е., говоря о различиях в наборах оценок этих двух фильмов, мы ошибаемся с вероятностью 100%.
Следовательно, различия недостоверны.
Критерий «хи-квадрат»
Проверка гипотезы о различиях в наборе частот
Все наблюдения объединяются и рассчитывается общая частота, после чего для каждого наблюдения определяется существенность расхождения и далее по схеме обычного критерия «хи-квадрат».
Критерий «хи-квадрат»
Условия применимости
oПри сравнении наборов частот:
1)Общее количество наблюдений – не менее 50.
2)Количество наблюдений каждого варианта значения – не менее 7 (в крайнем случае – не менее 5).
oПри сравнении набора частот с набором вероятностей
1)Общее количество наблюдений – не менее 50.
2)Для каждого варианта значения количество успешных наблюдений не менее 7 (в крайнем случае – не менее 5).
3)Для каждого варианта значения количество неуспешных наблюдений не менее 7 (в крайнем случае – не менее 5).
Критерий «хи-квадрат»
Недостатки критерия:
oЕсли критерий применяется для слишком малых объемов наблюдений, то могут быть обнаружены достоверные различия там, где их на самом деле нет.
oКритерий разные значения переменных считает разными в одинаковой степени.
oДаже при истинности нулевой гипотезы рассчитанная случайная величина распределена не как n2 , а несколько иначе (лишь асимптотически приближаясь к n2 ).
Домашнее задание
Задача. Из 48 студентов первые 6 лекций нашего курса посетило 42, 46, 44, 43, 47 и 43 студента соответственно. С какой доверительной вероятностью можно считать посещаемость лекций постоянной величиной?