Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Lektsii (1) / Lecture 23

.pdf
Скачиваний:
13
Добавлен:
02.06.2015
Размер:
229.21 Кб
Скачать

ICEF, 2012/2013 STATISTICS 1 year LECTURES

Лекция 23

05.03.13

Мы изучили ситуацию, когда генеральная совокупность описывается дискретной случайной величиной. Как модифицируется тест, если генеральная совокупность это непрерывная случайная величина, например, X N (2,3) ?

Рассмотрим этот пример подробнее. Пусть Х непрерывная генеральная совокупность. Нулевая гипотеза H0: X N (2,3) , альтернатива Hа отрицание H0.

Разобьём всю область значений случайной величины на k отрезков

j

= (a j1, a j ], j =1,..., k . Поскольку в нашем случае эта область вся числовая прямая, то

a0

= −∞, ak = +∞. При нулевой гипотезе можно вычислить вероятности

 

a

j1

2

 

a

j

2

 

 

πj

= Pr(X j ) = Pr(a j1 < X a j ) = Pr

 

 

< Z

 

 

 

, j =1,..., k .

 

3

 

 

3

 

 

 

 

 

 

 

Всегда должно быть k π j =1.

j=1

Пусть x1,..., xn выборка из генеральной совокупности. Для каждого отрезка j посчитаем количество наблюдений, попавших в этот отрезок:

Oj = #{i : xi j , i =1,..., n}, j =1,..., k

(Observed) , и ожидаемые: E j = n πj , j =1,..., n

(Expected). Очевидно, что k

Oj = k

E j = n .

 

 

j=1

j=1

 

Составим статистику

 

 

χ2 = k

(Oj E j )2

.

 

 

 

 

 

j=1

E j

 

 

Так же, как и в дискретном случае, справедлива

Теорема. При нулевой гипотезе статистика χ2 имеет при больших n распределение

χ2 (k 1) .

Таким образом, тест устроен так:

1) построить разбиение j = (aj 1, aj ], j =1,..., k и вычислить статистику

χ2 = k

(Oj E j )2

;

E j

j=1

 

2) вычислить P-value и на этом основании сделать статистический вывод. Принципиальное отличие от дискретного случая состоит в том, что как количество отрезков разбиения, так и сами отрезки, можно выбирать по-разному. Утверждение теоремы от разбиения не зависит, поскольку оно носит асимптотический характер, т.е. при n →∞. Однако на практике, имея одну выборку x1,..., xn , но, выбирая разные наблюдения,

можно получать разные выводы. Не забываем условия применимости нормального приближения: надо так выбирать разбиение, чтобы в каждом отрезке было больше пяти наблюдений: Oj >5, j =1,..., k .

Пример. Дана выборка объёма n =50

5.09

7.70

8.10

8.73

9.30

9.65

10.15

10.60

11.49

12.24

6.49

7.75

8.16

8.74

9.40

9.72

10.21

10.74

11.83

12.32

7.04

7.98

8.46

8.96

9.42

9.82

10.49

11.09

12.00

12.88

7.12

8.03

8.51

9.09

9.47

9.88

10.54

11.18

12.03

12.94

7.30

8.09

8.59

9.13

9.50

9.96

10.59

11.32

12.08

13.29

Выборочное среднее x =9.70 , выборочное стандартное отклонение s =1.82 . Ниже дана гистограмма этой выборки.

Проверим гипотезу, что генеральная совокупность Х является нормальной со средним 10 и стандартным отклонением 2, т.е.

H0 : X N (10, 2) .

Разобьём числовую прямую на семь отрезков:

1 = (−∞,7], 2 = (7, 8], 3 = (8,9], 4 = (9,10], 5 = (10,11], 6 = (11,12], 7 = (12, +∞) .

Используя компьютер (или калькулятор, или таблицы…) находим вероятности

πj = Pr(X j ), j =1,...,7 при нулевой гипотезе:

π

0.067

0.092

0.150

0.191

0.191

0.150

0.159

и вычисляя

Подсчитывая количество наблюдений Oj , попавших в каждый отрезок j

ожидаемые значения E j = n πj , окончательно получаем следующую таблицу:

 

 

(O E)2

χ2

 

O

E

E

P-vauel

2

3.340

0.538

3.945

0.684

6

4.592

0.431

 

d.f.=6

10

7.494

0.838

 

 

12

9.573

0.615

 

 

7

9.573

0.692

 

 

5

7.494

0.830

 

 

8

7.933

0.001

 

 

Нулевая гипотеза не отвергается на любом разумном уровне значимости.

Справедливости ради следует заметить, что в первых двух отрезках наблюдаемые значения меньше 5. Это, конечно, неточность, но лень переделывать.

Упражнение. Повторите процедуру для другого разбиения

1 = (−∞,7.5], 2 = (7.5, 9], 3 = (9,10], 4 = (10,11.5], 5 = (11.5,13], 6 = (13, +∞) .

Изменится ли ваш вывод?

CHI-SQUARE TESTS FOR INDEPENDENCE.

CONTINGENCY TABLES

Разновидностью хи-квадрат тестов являются так называемые chi-square tests for independence или chi-square tests of association. Как и раньше, проще пояснить суть этого теста на примере.

Пример. Исследователя интересует, одинаково ли распределен доход в разных регионах страны. Предположим для простоты, что есть всего два региона South and North, а доход разбит на четыре уровня < $5 000, $5 000 $10 000, $10 000 $15 000, > $15 000.

Случайным образом были выбраны 400 человек, и их распределение по регионам и уровням дохода представлены в таблице:

 

 

 

Income ($1000)

 

Region

0 5

5 10

10 15

>15

Total

South

28

42

30

24

124

North

44

78

78

76

276

Total

72

120

108

100

400

Например, число 28 означает, что в данной выборке 28 человек живут на юге и имеют доход менее $5 000. Число 124 в столбце Total, очевидно, общее число жителей юга в выборке.

Можно ли утверждать, что распределение дохода на юге и на севере одинаково или, что эквивалентно (это вы докажете сами, решив одну из задач очередного домашнего задания), эти два фактора доход и регион независимы.

В данном случае популяция это два случайных фактора (совместное распределение): Region, принимающий два значения и Income, принимающий четыре значения. Обозначим πij , i =1, 2, j =1, 2,3, 4 совместное популяционное распределение. (Напомним, что,

например, π23 это доля людей, живущих на севере и имеющих доход от $10 000 до

$15 000, или, что то же самое, это вероятность того, что наугад выбранный из популяции индивидуум будет жить на севере и иметь третий уровень дохода.) Тогда, как мы знаем, независимость факторов означает, что

H0 :πij =πii πi j ,

где πii, πi j соответствующие маржинальные распределения. Особенность задачи в том, что мы не знаем числа πii, πi j , но можем их оценить с помощью соответствующих

выборочных пропорций:

p1i = 124400 = 0.31, p2i = 276400 = 0.69 =10.31;

pi1 = 40072 = 0.18, pi2 = 120400 = 0.30, pi3 = 108400 = 0.27, pi4 = 100400 = 0.25 =1pi1 pi2 pi3 .

Тогда (оцененное) ожидаемое число в ячейке (i, j) при нулевой гипотезе есть

Eij = n pii pi j .

Таблица ожидаемых значений:

 

 

 

Income ($1 000)

 

 

Region

0 5

5 10

10 15

>15

Total

Marginal Region

South

22.32

37.2

33.48

31

124

0.31

North

49.68

82.8

74.52

69

276

0.69

Total

72

120

108

100

400

 

Marginal Income

0.18

0.3

0.27

0.25

 

 

Как и раньше, составляем статистику

2

4

(O E )2

 

χ2 = ∑∑

ij ij

,

(1)

Eij

i=1

j=1

 

 

суммируя как по столбцам, так и по строкам таблиц. В данном случае χ2 =5.81. Теорема. При нулевой гипотезе статистика (1) асимптотически (при больших n) имеет распределение χ2 , число степеней которого равно произведению (r 1)(c 1) , где r число строк, с число столбцов.

Внашем случае d.f. = (21)(41)=3. P-value = 0.121. На 5%-ном уровне значимости нулевая гипотеза не отвергается.

Таблицы, используемые в этом тесте называются таблицами сопряжённости, Contingency Tables.

Вобщем случае, имеется два признака (фактора) А и В. Первый имеет r значений a1,...,ar ,

второй c значений b1,...,bc . Пусть π1,...,πr, π1,...,πc

популяционные частоты значений

признаков А и В, соответственно. Пусть πij , i =1,..., r,

j =1,..., c популяционные частоты

совместного распределения признаков А и В. Тогда нулевая гипотеза о независимости признаков может быть записана так: Н0: πij =πiπj .

У нас есть п наблюдений (x1, y1 ),...,(xn , yn ) , и пусть

Oij = #{(xm , ym ) : xm = ai , ym =bj , m =1,..., n} (наблюдаемые, observed). Если бы πij были известны, то ожидаемое (expected) число с признаками (i, j) было бы равно

Eij =πijn =πiπjn при нулевой гипотезе. Однако при неизвестных частотах мы оцениваем

 

 

 

n

nj

c

r

их естественным образом: pi

=

 

i

, pj =

 

, ni= nij , nj = nij . Таким образом,

 

 

n

 

 

 

n

j=1

i=1

оценивается l = (r 1) +(c 1)

независимых параметров. Число степеней свободы

d. f . = rc 1 (r 1) (c 1) = (r 1)(c 1) .

 

 

 

Общее правило: d. f . = number

of cells 1number of

estimated parameters

При практическом использовании нужно следить за выполнением условий применимости нормального приближения, которые в данном случае имеют вид:

1)n > 40 ,

2)Oij >5 .

Модель парной регрессии (simple regression, гл.12)

До сих пор мы изучали одиночный фактор. Модель парной регрессии это одна из простейших моделей, в которой рассматривается взаимодействие двух факторов. Рассмотрим пример.

Пример. Пусть нас интересует связь между месячным семейным доходом (Income = I) и ежемесячными семейными расходами на питание (Food Expences = FI). В данном случае генеральная совокупность это множество всех доступных для наблюдения семей. С каждой семьей связана пара чисел (I, FE). Условно говоря, мы считаем доход I независимой переменной, а расходы на питание FE зависимой переменной. Ясно, что

детерминированной связи между I и FE нет: если рассмотреть под-популяцию семей, имеющих заданный уровень дохода I0 , то расходы на питание в ней у разных семей

будут, вообще говоря, разные. Иными словами, есть распределение величины FE в рассматриваемой под-популяции.

Так же, как и раньше, когда мы рассматривали только одну генеральную совокупность (популяцию) Х и интересовались ее средним значением E(X ) , сейчас фокус наших

интересов это среднее значение зависимой переменной в каждой под-популяции, характеризуемой уровнем I независимой переменной, т.е. величина E(FE | I ) . Но теперь

это не число, а функция ϕ(I ) = E(FE | I ) , зависящая от I. Основная задача состоит в восстановлении (оценивании) функции ϕ(I ) по наблюдениям (Ii , FEi ), i =1,..., n , взятым из рассматриваемой популяции.

Соседние файлы в папке Lektsii (1)