Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Планирование эксперимента - лекция07

.pdf
Скачиваний:
44
Добавлен:
03.06.2015
Размер:
944.53 Кб
Скачать

Процентили

Задача (об определении доверительных границ к процентилю). Вычислить двусторонние доверительные границы для медианы с p=0,05.

Решение. Пусть x1, x2 ,..., xN – набор из N наблюдений, а

X p ее p-процентиль. Случайная величина ξ – количество наблюдений со значениями, меньшими X p .

Тогда по определению процентиля ξ имеет биномиальное распределение с числом наблюдений N и вероятностью p.

Процентили

Оценка

Кол-во

Кум. кол-во

%

Кум. %

10

107

439

24,5%

100,0%

9

98

331

22,2%

75,5%

8

112

234

25,5%

53,3%

7

68

122

15,5%

27,8%

6

28

54

6,4%

12,2%

5

11

25

2,5%

5,8%

4

5

14

1,1%

3,3%

3

3

10

0,6%

2,2%

2

2

7

0,4%

1,6%

1

5

5

1,2%

1,2%

Всего:

439

 

100,0%

 

 

 

 

 

 

 

n

 

 

Оценка снизу:

C439i

0,5 i 1 0,5 439 i 0,025

n 199

 

i 0

 

 

 

439

 

 

Оценка сверху:

C439i

0,5 i 1 0,5 439 i 0,025

n 240

i n

Критерий «хи-квадрат»

Часто вместо сравнения одной частоты с вероятностью нужно сравнивать наборы частот и вероятностей.

Пусть изучаемая величина может принимать n

разных значений с вероятностями pk , а из N наблюдений k-тое значение встретилось Nk раз.

Определение достоверности отличия набора частот Nk N от их вероятностей pk происходит по следующей

схеме.

Критерий «хи-квадрат»

Схема проверки:

1)Для каждого k определяется ожидаемое количество наблюдений Npk

2)Для каждого k определяется существенность разности ожидаемого и фактического:

N Np 2

k k Npk k

3)Вычисляется общая существенность различий:

N

k

k1

4)Определяется вероятность p того, что случайная величина, распределенная как 2 с N–1 степенями свободы принимает значения, равные или большие .

Критерий «хи-квадрат»

VS

 

Оценка

%

 

 

 

 

1

2

1

 

 

2

 

 

10

107345

61189

24,5%

 

 

25,6%

58505

123,1

9

97572

55860

22,2%

 

 

23,4%

53179

135,2

8

111938

60455

25,5%

 

 

25,3%

61009

5,0

7

68123

34777

15,5%

 

 

14,5%

37129

148,9

6

28268

13892

6,4%

 

 

5,8%

15407

148,9

5

10978

5422

2,5%

 

 

2,3%

5983

52,6

4

4697

2328

1,1%

 

 

1,0%

2560

21,0

3

2809

1450

0,6%

 

 

0,6%

1531

4,3

2

1773

963

0,4%

 

 

0,4%

966

0,0

1

5165

2748

1,2%

 

 

1,1%

2815

1,6

Всего:

438668

239084

100,0%

 

 

100,0%

 

640,7

Критерий «хи-квадрат»

 

Оценка

%

 

 

 

 

1

2

1

 

 

2

 

 

10

107345

61189

24,5%

 

 

25,6%

58505

123,1

9

97572

55860

22,2%

 

 

23,4%

53179

135,2

8

111938

60455

25,5%

 

 

25,3%

61009

5,0

7

68123

34777

15,5%

 

 

14,5%

37129

148,9

6

28268

13892

6,4%

 

 

5,8%

15407

148,9

5

10978

5422

2,5%

 

 

2,3%

5983

52,6

4

4697

2328

1,1%

 

 

1,0%

2560

21,0

3

2809

1450

0,6%

 

 

0,6%

1531

4,3

2

1773

963

0,4%

 

 

0,4%

966

0,0

1

5165

2748

1,2%

 

 

1,1%

2815

1,6

Всего:

438668

239084

100,0%

 

 

100,0%

 

640,7

 

 

 

 

 

 

 

 

 

Вычисления дают = 640,7 и p=1,0. Т.е., говоря о различиях в наборах оценок этих двух фильмов, мы ошибаемся с вероятностью 100%.

Следовательно, различия недостоверны.

Критерий «хи-квадрат»

Проверка гипотезы о различиях в наборе частот

Все наблюдения объединяются и рассчитывается общая частота, после чего для каждого наблюдения определяется существенность расхождения и далее по схеме обычного критерия «хи-квадрат».

Критерий «хи-квадрат»

Условия применимости

oПри сравнении наборов частот:

1)Общее количество наблюдений – не менее 50.

2)Количество наблюдений каждого варианта значения – не менее 7 (в крайнем случае – не менее 5).

oПри сравнении набора частот с набором вероятностей

1)Общее количество наблюдений – не менее 50.

2)Для каждого варианта значения количество успешных наблюдений не менее 7 (в крайнем случае – не менее 5).

3)Для каждого варианта значения количество неуспешных наблюдений не менее 7 (в крайнем случае – не менее 5).

Критерий «хи-квадрат»

Недостатки критерия:

oЕсли критерий применяется для слишком малых объемов наблюдений, то могут быть обнаружены достоверные различия там, где их на самом деле нет.

oКритерий разные значения переменных считает разными в одинаковой степени.

oДаже при истинности нулевой гипотезы рассчитанная случайная величина распределена не как n2 , а несколько иначе (лишь асимптотически приближаясь к n2 ).

Домашнее задание

Задача. Из 48 студентов первые 6 лекций нашего курса посетило 42, 46, 44, 43, 47 и 43 студента соответственно. С какой доверительной вероятностью можно считать посещаемость лекций постоянной величиной?