Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Компьютерный практикум по статистике

.pdf
Скачиваний:
160
Добавлен:
01.04.2015
Размер:
2.27 Mб
Скачать

2. Для вычисления в ы б о р о ч н ы х х а р а к т е р и с т и к воспользуемся программой «Описательная статистика», выбрав соответствующий пункт меню надстройки «Анализ данных» пакета Microsoft Excel.

В окне ввода исходных данных программы «Описательная статистика» (рис. 3.1.6) укажем входной интервал (ссылку на ячейки A1:A101, содержа-

щие данные об объеме продаж с заголовком; так как первая строка входного интервала содержит заголовок, отметим флажок «Метки»), установим флажок для генерации итоговой статистики — набора основных выборочных характеристик. Укажем, что исходные данные помещены в столбце, а результаты работы программы необходимо вывести на новый рабочий лист.

Рис. 3.1.6. Окно ввода данных программы «Описательная статистика»

В результате работы программы «Описательная статистика» получены зна-

чения выборочных характеристик ежедневного объема продаж (рис. 3.1.7):

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

выборочное среднее

 

= xi n = 49,6 ;

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

исправленная выборочная дисперсия s2X = (xi

 

)2

(n 1) = 117,8 , от-

x

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

куда

легко вычислить выборочную

дисперсию

2

= (x

 

 

 

2

 

ˆσ

i

x)

n =

 

 

 

 

 

 

 

 

 

 

 

 

X

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

n 1

 

2

= 116,6 ; с учетом поправки Шеппарда σɶ

2

 

 

2

 

2

 

 

 

 

 

 

 

 

s

X

X

=ˆσ

 

/12

= 113,12 ;

 

 

 

 

 

n

 

 

 

 

 

 

 

X

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

стандартное отклонение sX = s2X = 10,85 (выборочное среднее квадра-

тичное отклонение

ˆσ

=

2

= 10,80 , с учетом поправки Шеппарда

ˆσ

 

X

 

X

 

σɶX = σɶ2X = 10,64 );

21

исправленная выборочная асимметрия

ɶ

=

 

ˆ

(n 2) = 0,091,

 

AX

n(n 1)AX

откуда

легко

вычислить

выборочную

асимметрию

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆ

=ˆμ

3

 

 

 

ɶ

 

/ n(n 1) = 0,089

 

 

здесь ˆμ

= (x

 

 

 

 

 

k

n

 

;

 

 

 

 

 

 

 

 

 

 

 

 

 

A

X

σ

= (n 2)A

X

 

i

x)

 

 

 

 

 

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ɶ

 

 

 

 

 

 

 

ˆ

+ 6]

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

(n 1)[(n +1)EX

 

= −0,47, от-

исправленный выборочный эксцесс E

 

 

 

 

 

 

 

 

 

 

 

 

 

X

 

(n 2)(n 3)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

куда

легко

вычислить выборочный

эксцесс

 

ˆ

=ˆμ

 

 

4

3 =

 

 

E

X

σ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

 

 

 

 

 

=

(n 2)(n 3)EɶX

6

 

= −0,51;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n +

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(n + 1)(n 1)

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

= sX

/x = 0,2188 = 21,88% .

 

 

выборочный коэффициент вариации

VX

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Объем продаж за 100 дней

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Среднее

 

 

 

 

 

49,6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Стандартная ошибка

 

 

 

 

 

1,09

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Медиана

 

 

 

 

 

49,15

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Мода

 

 

 

 

 

37,2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Стандартное отклонение

 

 

 

 

 

10,85

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Дисперсия выборки

 

 

 

 

 

117,8

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Эксцесс

 

 

 

 

 

–0,47

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Асимметричность

 

 

 

 

 

0,091

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Интервал

 

 

 

 

 

49,6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Минимум

 

 

 

 

 

24,2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Максимум

 

 

 

 

 

73,8

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Сумма

 

 

 

 

 

4959,6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Счет

 

 

 

 

 

100

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 3.1.7. Результаты работы программы «Описательная статистика»

Значения некоторых характеристик могут изменяться при переходе от несгруппированных данных к сгруппированным (интервальному вариационному ряду).

Такими величинами являются, в том числе, выборочная медиана ˆx

med

и выборочная мода ˆx . Программа «Описательная статистика» вычисляет

mod

все характеристики п о н е с г р у п п и р о в а н н ы м д а н н ы м. Между тем, указанные две характеристики несут в себе гораздо больше смысла, если их вычислять п о и н т е р в а л ь н о м у в а р и а ц и о н н о м у р я - д у при помощи следующих формул:

22

 

 

 

 

 

 

ˆ

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆx

= a +

 

 

0,5 F(al )

, где a

— начало медианного интервала, т. е. тако-

 

 

 

med

l

 

 

 

 

ˆp

 

 

l

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

l

 

 

 

 

 

 

 

 

 

 

 

 

 

 

го интервала группирования (al; al + 1),

ˆ

 

 

 

ˆ

+1) 0,5 ; в

что F(al ) < 0,5, а F(al

нашем случае a

= 46,911, поэтому ˆx

= 46,911+

6,49

(0,5 0,45) = 48,71;

 

 

 

 

 

 

 

l

 

 

 

 

 

 

med

 

 

0,18

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆx

= am +

 

 

ˆp ˆp

, где am — начало модального интервала, т. е.

 

 

 

m m1

mod

 

 

 

p

ˆp

ˆp

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m

 

 

m1

 

m+1

 

 

 

 

 

 

 

 

 

 

 

такого интервала группирования (a ; a ), что

 

ˆp

= maxˆp ; в нашем

 

 

 

 

 

 

 

 

 

 

 

 

 

m

m + 1

 

m

 

i=1,2,…,ν i

 

 

случае a

 

= 40,422, поэтому ˆ

= 40,422

+ 6,49×

 

0,25 0,12

= 44,64

.

m

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

mod

 

2×0,25 - 0,12 - 0,18

 

 

Итак, все требуемые выборочные характеристики получены.

3. Заменим параметры нормального закона a и σ их выборочными оценками: a = x = 49,6, σ = σɶX = 10,64 и рассчитаем значения функции плот-

ности нормального закона

 

 

 

 

 

 

 

 

1

 

e

(xa)2

 

 

 

 

 

 

 

fN (x) =

 

 

2σ2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

σ

 

2π

 

 

 

 

 

 

 

 

 

 

 

 

 

 

в серединах

интервалов

[воспользовавшись функцией Microsoft Excel

fN(x) = НОРМРАСП(<x>; <a>; <σ>; ЛОЖЬ)] и функции распределения

 

1

 

x

(ta)2

 

 

 

 

 

 

 

 

FN (x) =

 

e

 

dt = НОРМРАСП(<x>; <a>; < σ>; ИСТИНА)

 

2σ2

 

 

 

π

 

 

σ 2 −∞

 

 

 

 

 

 

 

 

 

в правых концах интервалов. Результаты расчетов представлены в седьмом и восьмом столбцах табл. 3.1.2. Графики функций fN(x) и FN(x) по-

строены на рис. 3.1.5 и 3.1.6 соответственно.

4.Для проверки гипотезы о нормальном законе распределения вос-

пользуемся критерием χ2. Вычислим значения интервальных частот для

нормального закона

npj = n[FN(aj+1) – FN(aj)],

предварительно приняв FN(a1) = 0 и FN(aν+1) = 1. Объединим те интервалы, в которых npj 5 (в данном случае необходимо объединить первый интервал со

вторым, а восьмой — с девятым), при этом соответствующие выборочные интервальные частоты mj (и теоретические частоты npj) складываются. Затем в

каждом из интервалов (с учетом объединения) вычислим значение величины (npj mj )2

npj

и просуммируем эти значения по интервалам — получим выборочное (наблюдаемое) числовое значение статистики

 

 

ν

2

χ2

 

=

(npj mj )

,

l1

 

ν

j=1

npj

 

 

 

 

это значение равно 3,80.

Здесь ν* — число интервалов после их объединения (в данном случае ν* = 7), l — число параметров нормального закона распределения, точные

значения которых неизвестны (в данном случае нам неизвестны точные значения обоих параметров нормального закона a и σ, поэтому l = 2).

Значение статистики χ2ν −l1 сравним с критической точкой χ2α; ν −l1 , где

α — уровень значимости (по условию задачи α = 5% = 0,05). Критическая точка χ2α; ν −l1 = χ20,05; 4 = 9,49 [это значение получено с помощью функции Microsoft Excel χ2α;k = ХИ2ОБР(<α>; <k>)]. Наблюдаемое значение статистики χ24 оказа-

23

лось меньше критической точки, поэтому нет оснований отвергнуть гипотезу о нормальном законе распределения объема ежедневных продаж.

Результаты расчетов сведены в табл. 3.1.2.

5. В предположении нормальности распределения объема продаж интервальная оценка математического ожидания объема продаж задается формулой

 

 

 

s

X

 

 

 

 

s

X

 

 

 

 

 

 

 

 

 

P X - t1−γ; n1

 

 

< MX < X + t1−γ; n1

 

 

 

= g .

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

n

 

При g = 0,95, n = 100 критическая точка t1−γ; n1 = 1,98 [для расчета критической точки t1−γ; n1 в Microsoft Excel можно воспользоваться функцией

tα;k = СТЬЮДРАСПОБР(<a>; <k>)],

и поскольку

 

 

= 49,6 и sX = 10,85, 95%-

x

ная интервальная оценка MX принимает вид

 

 

 

 

 

49,6 -1,98×

10,85

 

< MX < 49,6 +1,98×

10,85

 

или

 

47,45 < MX < 51,75.

 

 

 

 

 

 

 

 

100

 

 

 

 

 

 

 

 

 

100

 

 

 

 

 

 

Интервальная оценка дисперсии задается формулой

 

 

 

 

 

 

 

 

 

(n -1)s2

 

 

 

(n -1)s2

 

 

 

 

 

 

 

 

 

 

 

P

 

 

 

X

 

 

< DX <

 

 

X

 

= g ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

c2 −γ

 

 

 

c(12 )/2; n1

 

 

 

 

 

 

 

 

 

 

 

(1

 

)/2; n 1

 

 

 

 

 

 

 

 

 

в которой s2

интерпретируется как случайная величина.

 

X

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

При g = 0,95 и n = 100 критические точки равны c(12 −γ)/2; n1 = c0,025;2 99 =

= 128,42 и c(12 )/2; n1 = c0,975;2

99 = 73,36, и поскольку s2X = 117,8 , 95%-ная интер-

вальная оценка DX принимает вид

 

 

 

 

 

 

 

 

 

 

 

99×117,8

< DX <

99×117,8

 

 

 

или

90,81 < DX < 158,97.

128,42

 

 

 

 

 

 

 

73,36

 

 

 

 

 

 

 

 

 

 

 

 

 

Отсюда можно найти и 95%-ную интервальную оценку среднего квад-

ратичного отклонения:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

< sX <

 

 

 

или

9,53 < sX < 12,61.

 

 

 

 

90,81

158,97

 

6. а)

 

В предположении нормальности распределения объема про-

даж проверим на 5%-ном уровне значимости справедливость гипотезы H0: MX = 49 при альтернативной гипотезе H1: MX ¹ 49.

Наблюдаемое числовое значение статистики

Tn1 = (X - a0)n sX

равно

(49,6 - 49)100 = 0,55.

10,85

При a = 0,05 значение критической точки tα; n1 = t0,05;99 = 1,98. Поскольку |0,55| < t0,05; 99 , нет оснований отвергнуть проверяемую гипотезу H0.

24

Пусть альтернативное

 

значение

математического

ожидания равно

a1 = 50, тогда вероятность ошибки второго рода равна

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(a0 - a1)

n

 

 

(a0 - a1)

 

 

n

 

 

 

b = P Tn1

>

- tα; n1 - P Tn1

>

 

 

+ tα; n1

=

 

sX

 

 

sX

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(49 - 50)

 

 

 

 

 

 

 

 

 

 

 

 

 

100

 

 

= P T99 >

(49 - 50) 100

 

- t0,05;99 - P T99 >

+ t0,05;99

 

=

 

 

10,85

 

 

 

 

 

10,85

 

 

 

 

 

 

 

 

 

 

 

 

 

=P{T99 > -0,92 -1,98} - P{T99 > -0,92 +1,98} = P{T99 < 2,9} - P{T99 >1,06} =

=1- 0,002 - 0,146 = 0,857.

Здесь вероятности P{Tk > t} можно рассчитать с помощью функции

Microsoft Excel P{Tk > t} = СТЬЮДРАСП(<t>; <k>; 1).

б) Проверим теперь справедливость гипотезы H0:DX = b0 = [s2X ] +1=

= 118 при альтернативной гипотезе H1: DX ¹ 118.

Наблюдаемое числовое значение статистики

χ2n1 = (n -1)s2X

b0

равно

99×117,8 = 98,83 .

118

При a = 0,05 значения критических точек таковы: c2α/2; n1 = c0,025;2 99 =

= 128,42 и c12−α/2; n1 = c0,975;2 99 = 73,36 . Поскольку значение статистики χ299 не попадает в критическую область (98,83Ï(0;73,36) È (128,42; + ¥)), нет осно-

ваний отвергнуть проверяемую гипотезу H0.

Пусть альтернативное значение дисперсии равно b1 = 119, тогда веро-

ятность ошибки второго рода равна

 

 

b c2−α

 

 

 

 

 

b c2α

 

 

b = P χ2n1

>

0 1

/2; n 1

 

- P χ2n1 >

0

/2; n 1

 

=

b1

b1

 

 

 

 

 

 

 

 

= P{χ992 >

118×73,36

}- P{χ992

>

118×128,42

}=

 

 

 

 

119

 

 

 

 

 

 

119

 

 

 

= P299 > 72,74} - P299 >127,34} = 0,978 - 0,029 = 0,949.

Студенту рекомендуется самостоятельно ответить на вопрос: можно ли, не изменяя сведений об объемах продаж, уменьшить вероятности ошибок второго рода?

3.2.Д и с п е р с и о н н ы й а н а л и з

i)Однофакторный дисперсионный анализ

Сведения о количестве голосов Y, отданных за кандидата в трех одно-

типных случайно выбранных избирательных округах, в которых использовались разные виды агитации (A(1) — личные встречи кандидата с избира-

25

телями, A(2) — раздача листовок с программой кандидата, A(3) — выступле-

ние кандидата по телевидению), приведены в табл. 3.2.1.

Т а б л и ц а 3.2.1

Номер избирательного участка

A(1)

A(2)

A(3)

1

280

300

150

2

250

250

240

3

200

210

170

4

290

310

200

5

 

270

150

6

 

300

 

1. Д е т е р м и н и р о в а н н а я м о д е л ь о д н о ф а к т о р н о г о

д и с п е р с и о н н о г о

а н а л и з а

количества голосов, поданных за кан-

дидата в избирательном округе, имеет следующий вид:

 

 

Y(i) = θ(0) + θ(i) + ε(i); i = 1,2,3;

k = 1, 2,…, n

;

n = 4;

n = 6;

n = 5,

k

k

i

 

1

2

3

где θ(0) = MY , θ(i) — неслучайный эффект влияния уровня A(i) фактора A на наблюдение Yk(i) , ε(ki) — случайный эффект влияния прочих неконтроли-

руемых факторов.

К этой модели предъявляются следующие т р е б о в а н и я:

все случайные величины ε(ki) или, иначе, все случайные величины Yk(i)

должны быть независимыми;

ε(i) = N

(0; σ

ост

)

или, иначе, Y(i) = N (θ(0)

+ θ(i); σ

ост

) , т. е.

при каждом

 

k

 

 

k

 

 

 

 

уровне

фактора наблюдения должны

проводиться в

одинаковых

(«нормальных») вероятностных условиях с дисперсией, не изменяющейся при переходе от одного уровня фактора к другому;

3

niθ(i) = 0 . i=1

В

однофакторном дисперсионном анализе проверяют гипотезу

H : θ(1)

= θ(2) = θ(3) = 0, состоящую в том, что эффекты влияния зафиксиро-

0

 

ванных уровней фактора A равны нулю — количество голосов, отданных за

кандидата при каждом виде агитации, не зависит от вида агитации. Введем исходные данные в рабочий лист Microsoft Excel (рис. 3.2.1).

 

A

B

C

1

A(1)

A(2)

A(3)

2

 

280

300

150

3

 

250

250

240

4

 

200

210

170

5

290

310

200

6

 

 

270

150

7

 

 

300

 

Рис. 3.2.1. Числовые данные для программы «Однофакторный дисперсионный анализ»

Для исследования модели воспользуемся программой «Однофакторный дисперсионный анализ». Для этого выберем соответствующий пункт меню надстройки «Анализ данных». В появившемся окне ввода данных (рис. 3.2.2)

26

укажем входной интервал A1:C7, в который мы ввели исходные данные (с

заголовками столбцов — обозначениями уровней фактора, поэтому отметим флажок «Метки в первой строке»). Зададим уровень значимости «Альфа» (по условию α = 0,05). Укажем, что данные сгруппированы по столбцам, а результаты работы программы необходимо вывести на новый рабочий лист. Результаты работы программы представлены на рис. 3.2.3.

Рис. 3.2.2. Окно ввода данных программы «Однофакторный дисперсионный анализ»

Однофакторный дисперсионный анализ

 

 

 

 

 

 

 

 

 

 

 

ИТОГИ

 

 

 

 

 

 

Группы

Счет

Сумма

Среднее

Дисперсия

 

 

A(1)

4

1020

255

1633,333

 

 

A(2)

6

1640

273,3333

1466,667

 

 

A(3)

5

910

182

1470

 

 

 

 

 

 

 

 

 

Дисперсионный анализ

 

 

 

 

 

 

Источник вариации

SS

df

MS

F

P-значение

F критическое

Между группами

24326,67

2

12163,33

8,06

0,006

3,89

Внутри групп

18113,33

12

1509,44

 

 

 

 

 

 

 

 

 

 

Итого

42440

14

 

 

 

 

Рис. 3.2.3. Результаты работы программы «Однофакторный дисперсионный анализ»

Выполнение первого требования, предъявляемого к результатам наблюдений, определяется организацией выборов (число голосов, отданных за кандидата на любом избирательном участке при правильной организации выборов, очевидно, не зависит от числа голосов, отданных за того же кандидата на двух оставшихся участках).

Проверим на 5%-ном уровне значимости гипотезу о равенстве групповых генеральных дисперсий количества голосов, предположив нормаль-

27

ность распределения случайных величин Y(i)

и их независимость. Для этого

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

применим к р и т е р и й

 

Б а р т л е т т а.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Число наблюдений на каждом уровне ni Счет»), несмещенные оценки

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ni

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

групповых средних

 

 

 

 

 

 

(i)

= yk(i)

ni

 

 

 

Средние») и

групповых

дисперсий

y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ni

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

si2 = (yk(i)

 

 

k(i) )2 (ni

 

1) («Дисперсии») рассчитаны программой (i = 1, 2, 3).

y

k=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Для расчета числового значения статистики Бартлетта

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

2

 

2

 

 

 

 

 

 

 

 

Φν−1 = q (n1

1)ln

sост

+ (n2 1)ln

sост

+ (n3

1)ln

sост

,

 

 

 

 

 

 

2

2

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

s1

 

 

 

 

 

 

 

 

 

 

 

 

s2

 

 

 

 

s3

 

 

 

где ν = 3 — число уровней фактора,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

q =

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

,

 

 

1

 

 

 

1

 

 

 

 

 

 

 

 

1

 

 

 

 

 

1

 

 

 

 

 

 

 

1

 

 

 

 

 

 

1+

 

 

 

 

 

 

 

 

 

 

 

 

 

+

 

 

 

 

 

 

+

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3(ν −1) n1

 

 

n2 1

 

n3 1 (n1 1) + (n2 1) + (n3 1)

 

 

 

 

 

 

 

 

 

 

 

s2

 

=

 

(n 1)s2 + (n 1)s2 + (n 1)s2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

1

 

 

 

 

2

2

 

 

3

3

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ост

 

 

 

 

 

 

 

(n1 1)

+ (n2 1) + (n3 1)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

вычислим последовательно:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

q =

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

= 0,896;

 

 

1

 

 

1

 

 

 

 

 

 

 

1

 

 

 

 

 

1

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

1+

 

 

 

 

 

 

 

 

 

+

 

 

 

 

 

+

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

6

 

 

 

 

 

(4 1)

+ (6 1)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3(3 1) 4

 

 

 

1

5

1

+ (5 1)

 

 

 

 

 

 

s2

 

=

(4 1)1509,44 + (6 1)1466,67 + (5 1)1470

= 1509,44,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ост

 

 

 

 

 

 

 

 

 

 

 

 

(4 1) + (6

1) + (5 1)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

тогда числовое значение статистики Бартлетта Φν−1

будет равно

 

 

0,896 (4 1)ln

1509,44

 

+ (6 1)ln

 

1509,44

+ (5 1)ln

1509,44

= 0,012 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

16,33,33

 

 

 

 

 

 

 

 

 

 

 

1466,67

 

 

1470

 

 

 

 

 

Статистика Бартлетта Φν−1 в предположении справедливости гипоте-

зы о равенстве групповых генеральных дисперсий имеет распределение, близкое к χ2ν−1 . При α = 0,05 критическая точка χ2α; ν−1 = χ20,05;2 = 5,991. По-

скольку наблюдаемое числовое значение статистики Бартлетта оказалось меньше критической точки, нет оснований отвергнуть проверяемую гипотезу. Таким образом, второе требование, предъявляемое к результатам наблюдений, выполнено.

2.Таблица «Дисперсионный анализ», полученная в результате рабо-

ты программы (рис. 3.2.3), представляет собой д и с п е р с и о н н у ю т а б -

ли ц у. Расшифруем ее отдельные ячейки в табл. 3.2.2.

Вэтой таблице

ni

yk(i)

y(i) = k=1 ,

ni

 

 

 

ν

 

 

 

 

ni

 

(i)

 

 

 

y

 

 

 

=

i=1

.

y

 

ν

 

 

 

ni

 

 

 

 

i=1

 

28

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Т а б л и ц а

3.2.2

Источник

 

 

 

 

 

 

 

 

 

 

Число

Оценка дис-

Fν−1; n−ν =

 

 

вариации

Показатель вариации (SS)

степеней

персии

σ2

 

s

2

 

P-значение

f

 

 

 

 

результативного

свободы

 

ост

=

A

 

α; ν−1; n−ν

 

 

 

 

 

 

 

 

 

 

 

(MS)

 

 

sост2

 

 

признака Y

 

 

 

 

 

 

 

 

 

 

(df)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ν

 

 

2

=

SSA

=

 

 

 

 

 

 

 

 

=ni (

 

(i)

 

 

 

)2 =24326,67

 

sA

 

 

 

 

 

Фактор A

SSA

 

 

 

 

ν – 1= 2

ν −1

8,06

 

0,006

3,89

y

y

 

 

 

 

 

i=1

 

 

= 12163,33

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ν ni

 

 

2

 

SSост

 

 

 

 

 

 

 

Остаточные

SSост=∑∑(yk(i)

 

(i)

)2 =18113,33

n ν = 12

sост= n − ν =

 

 

 

 

 

 

y

 

 

 

 

 

 

факторы

 

i=1 k=1

 

 

= 1509,44

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ν ni

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Общая

SSитог

=∑∑(yk(i)

 

)2 =42440,00

n – 1 = 14

 

 

 

 

 

 

 

 

 

 

 

 

y

 

 

 

 

 

 

 

 

 

 

 

 

вариация

 

i=1 k=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Проверка гипотезы H0: q(1) = q(2) = q(3) = 0 производится на основе анализа

статистики Fν−1; n−ν =sA2 /sост2

, имеющей (в предположении справедливости H0)

распределение Фишера — Снедекора с n – 1 = 2 и n n = 12 степенями свобо-

ды. В данном случае наблюдаемое значение этой статистики оказалось рав-

ным 8,06, и оно больше критической точки f0,05; 2; 12 = 3,89, откуда следует, что гипотеза H0 отвергается на 5%-ном уровне значимости [значение F статистики

s2A /sост2 и критическая точка f0,05; 2; 12 (F критическое) приводятся в результа-

тах работы программы (рис. 3.2.3, табл. 3.2.2)].

Гипотезу H0 можно проверить и так: если P-значение (равное рассчитанному уровню значимости гипотезы H0) оказывается не меньше принятого уровня значимости a (в данном случае a = 0,05), гипотезу H0 принимают, а если P-значение оказывается меньше a, гипотезу H0 отвергают. P-значение

приводятся в результатах работы программы (рис. 3.2.3, табл. 3.2.2). В данном случае P-значение равно P = 0,006 < a = 0,05, значит, гипотезу H0 следует отвергнуть на 5%-ном уровне значимости. Заметим, что если P-значение оказывается достаточно малым, то в Microsoft Excel оно может быть представлено в экспоненциальном формате, например, 6,04E-03 = 6,04×10-3 = 0,00604.

3. а) Таким образом, вид агитации существенно влияет на количество голосов, отданных за кандидата. Оценим силу этого влияния с помощью коэффициента детерминации

2

 

SSA

24326,67

 

ˆ

 

 

 

 

h

(Y | A) = SS

= 42440,00

= 0,57

 

 

итог

 

 

 

такова (57%) доля общей вариации наблюдаемого числа голосов, отданных за кандидата, обусловленная изменчивостью фактора A — вида агитации. Влия-

нием неконтролируемых факторов обусловлено 43% вариации числа голосов.

Нетрудно убедиться в том, что

 

ˆ

(

ˆ

)

 

ˆˆ

 

 

 

 

 

2

2

 

 

A),

 

 

2

 

2

 

,

SSA = nsYh (Y |

SSост = nsY

1- h (Y | A)

 

а статистика

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

2

 

 

 

 

 

 

 

 

 

 

sA

 

 

ˆ

 

 

 

 

 

 

 

 

 

=

 

h

(Y | A) (n -1)

 

.

 

 

 

 

2

(

 

2

)

 

 

 

 

 

 

sост

 

ˆ

(n

- n)

 

 

 

 

1- h (Y | A)

 

 

 

29

б) Попарное сравнение видов агитации по влиянию на количество поданных голосов проведем при помощи проверки гипотез H0(i;j): q(i) = q(j) при

альтернативах H1(i;j): q(i) ¹ q(j)

[(i; j) = (1;2), (1;3),(2;3)].

Вычислим значения

статистики

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(i)

 

 

 

(j) ninj

 

 

 

 

 

 

 

 

T

(i; j)

=

Y

Y

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ni + nj

 

 

 

 

 

 

n−ν

 

 

sост

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

имеющей (в предположении справедливости H(i;j) )

распределение Стью-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

дента с n n = 12 степенями свободы (здесь sост =

s2ост

=

 

= 38,85 ).

1509,44

В условиях данного примера оказалось, что наблюдаемое значение

статистики T(1;2) равно

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

12

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

255,00 - 273,33

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4×6

 

= -0,73,

 

 

 

 

 

 

38,85

 

 

 

 

 

4 + 6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

значение статистики T(1;3) равно

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

12

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

255,00 -182,00

 

 

 

 

 

 

 

 

 

 

 

4×5

 

= 2,80 ,

 

 

 

 

 

 

38,85

 

 

 

 

 

4 + 5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

а значение статистики T(2;3) равно

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

12

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

273,33 -182,00

 

 

 

 

 

 

 

 

 

 

6×5

 

= 3,88 ;

 

 

 

 

 

 

38,85

 

 

 

 

 

6 + 5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

критическая точка распределения Стьюдента на 5%-ном уровне значимо-

сти tα; n−ν = t0,05;12

= 2,18 .

 

 

Гипотеза

H0(1;2): q(1) = q(2) не отвергается (поскольку модуль значения

статистики T(1;2) , равный |0,73| < t

0,05; 12

), т. е. эффекты влияния первого и вто-

12

 

 

 

 

 

рого уровней фактора (личные встречи кандидата с избирателями, раздача листовок с программой кандидата) на результативный признак Y (число голосов, поданных за кандидата) одинаковы, а гипотезы H0(1;3):q(1) = q(3) и

H0(2;3): q(2) = q(3) отвергаются (так как |2,80| > t0,05; 12 , |3,88| > t0,05; 12), т. е. при пере-

ходе с первого (личные встречи кандидата с избирателями) и второго уровня (раздача листовок с программой кандидата) на третий (выступление кандидата по телевидению) эффект влияния изменяется.

4.Оценим параметры детерминированной модели однофакторного

дисперсионного анализа. Оценка ˆq(0) параметра q(0) равна общему среднему

ˆ

3

 

 

 

 

 

 

 

 

ˆ

 

 

 

 

(0)

 

 

 

 

(i)

 

 

 

 

 

 

 

(i)

 

(i)

 

q

= y = niy

(n1 + n2 + n3 ) = 238,00 .

Оценка q

эффекта q

влияния i-го

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

ˆ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(i)

 

 

 

 

(1)

 

 

уровня фактора (i = 1, 2, 3)

равна (y

 

- y) , т. е.

q = 255,00 - 238,00 =17,00 ;

ˆ

 

 

 

 

 

 

ˆ

 

 

 

 

 

 

 

 

 

(2)

 

 

 

 

 

 

(3)

 

 

 

 

 

 

 

 

 

q = 273,33 - 238,00 = 35,33 ;

q = = 182,00 – 238,00 = –56,00. Оценка пара-

метра sост равна sост = sост2 = 1509,44 = 38,85.

30