Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лабораторные работы по теории вер..pdf
Скачиваний:
40
Добавлен:
04.06.2015
Размер:
2.62 Mб
Скачать

Повторите этот опыт 20 раз. Какая из двух оценок ( D или s2 ) оказывается в большинстве опытов ближе к значению генеральной дисперсии? Свяжите этот результат с понятием смещённости оценки.

Контрольные вопросы

1.Почему идеальным способом получения выборки является случайный отбор?

2.Что такое полигон частот, гистограмма частот?

3.Какая оценка называется несмещённой? Объясните тот факт, что выборочная дисперсия является смещённой оценкой генеральной дисперсии.

4.Какая оценка называется состоятельной?

5.Чем отличается точечная оценка параметра от его интервальной оценки?

6.Что такое доверительный интервал?

7.Что такое точность и надёжность (доверительная вероятность) интервальной оцен-

ки?

8.Как выглядит доверительный интервал для оценки математического ожидания нормального распределения в случаях, когда генеральное среднеквадратическое отклонение (а) известно; (б) неизвестно.

Работа 8

ВЫРАВНИВАНИЕ СТАТИСТИЧЕСКОГО РЯДА. ПРОВЕРКА ГИПОТЕЗЫ О ТИПЕ РАСПРЕДЕЛЕНИЯ.

Теоретические частоты предполагаемого нормального распределения.

Критерий Пирсона

Время на выполнение и защиту 1 час

Цель работы:

1)изучение метода построения предполагаемого распределения по данным наблюдений;

2)изучение метода статистических гипотез на примере гипотезы о типе распределения;

3)изучение ряда функций Excel и Mathcad.

Построение предполагаемого распределения по данным наблюдений

Изучая распределение выборки (вид гистограммы или полигона частот), можно сделать предположение о том, что количественный признак в генеральной совокупности имеет нормальное (или биномиальное, пуассоновское, равномерное и др.) распределение. Иногда предположение о типе распределения делается не по эмпирическим данным, а по теоретическому анализу природы количественного признака. Например, если есть основания считать, что количественный признак ведёт себя как число наступлений некоторого события в се-

107

рии однородных независимых (или «почти однородных», «почти независимых») испытаний, то можно предположить, что он подчинён биномиальному закону. Если же дополнительно известно, что число испытаний велико, а вероятность наступления события в одном испытании мала, то можно сделать предположение о законе Пуассона и т. д.

Подгонку выборочного распределения под предполагаемое генеральное распределение признака называют выравниванием статистического ряда. Теоретическими частотами ni(в отличие от эмпирических частот ni ) называются

частоты, полученные в предположении о справедливости некоторого закона распределения (при заданном объёме выборки n ):

ni′ = nP(X = xi )

(8.1)

для дискретного количественного признака или

ni′ = nP(xi12

< X < xi+12 )

(8.2)

для непрерывного количественного признака, когда за варианты xi берутся се-

редины интервалов.

Рассмотрим только случай предполагаемого нормального распределения. Плотность нормального распределения (см. работу 4) описывается фор-

мулами:

 

 

 

 

 

 

2

 

 

 

 

f

(x) =

ϕ(z)

,

ϕ(z) =

1

e

z

,

z =

x a

,

2

σ

2π

σ

 

 

 

 

 

 

 

 

 

где a = M (X ), σ =

D(X ) – генеральные характеристики, оценками которых

являются выборочная средняя и исправленное среднеквадратическое отклонение:

a* = x, σ* = s .

Если все частичные интервалы имеют одинаковую (и малую) длину h , то вероятность попадания в интервал i приблизительно равна hf (xi ) , что даёт сле-

дующую формулу для теоретических частот нормального распределения:

ni′ = nh

ϕ(z

)

 

zi =

x

a*

 

 

i

 

,

i

 

.

(8.3)

 

 

s

 

s

 

 

 

 

 

 

Значения функции ϕ(z) приводятся в статистических таблицах (см. приложе-

ние 1).

Пример 20. При выпуске или закупке швейных изделий необходимо учитывать распределение людей по размеру и по росту. Обследовано 50 человек; результаты сгруппированы в интервалы длиной 4 см каждый, в таблице указаны середины интервалов (табл. 8.1).

Табл. 8.1.

 

 

 

 

 

 

 

Распределение 50 человек по росту (исходные данные к примеру 20)

 

xi

 

 

 

 

108

 

 

 

 

156

160

164

168

172

176

180

ni

 

5

7

13

14

6

4

1

Выборка, возможно, извлечена из нормальной генеральной совокупности. Действительно, распределение имеет почти симметричную форму с максимумом вблизи среднего значения признака. Расчёты дают следующие значения характеристик:

x =166; D = 501 ((156 166)2 5 +...+(180 166)2 1)= 33,44;

 

s2 =

50 D = 34,12;

σ = 5,783;

s = 5,841.

 

 

 

 

 

 

 

49

 

 

 

 

 

 

 

 

Произведём выравнивание статистического ряда. Для x1 =156 по форму-

лам (8.3) получаем: z1 = −1,71, ϕ(z) 0,092,

n1′ =3,2.

 

 

 

 

Аналогично вычисляются остальные теоретические частоты:

 

xi

 

 

156

160

164

168

172

176

180

 

 

 

ni

 

 

3,2

8,1

12,9

12,9

8,1

3,2

0,7

 

Гипотеза о типе распределения

Пусть имеется частотное распределение выборки значений количественного признака X . Есть основания предположить, что в генеральной совокупности признак X распределён по нормальному (или равномерному, биномиальному, пуассоновскому и т. д.) закону. После выравнивания статистического ряда (расчета теоретических частот) необходимо проверить гипотезу о типе распределения (необходимые сведения о статистических гипотезах и связанных с ними понятиях можно найти в пособии Г.Д. Гефана (2011)). В качестве критерия проверки этой гипотезы логично выбрать величину, которая равнялась бы нулю при полном совпадении эмпирических и теоретических частот ( ni = niдля всех

i). При этом необходимо, чтобы противоположные по знаку отклонения не гасили друг друга. Этим требованиям удовлетворяет так называемый критерий согласия (Пирсона)

 

k

(ni ni)

2

 

 

χ 2

=

 

.

(8.4)

ni

 

 

i=1

 

 

 

Распределение χ 2 зависит от числа степеней свободы m = k 1l , где k – чис-

ло групп выборки, т. е. число вариантов или частичных интервалов, l – число оцениваемых по выборке параметров гипотетического распределения (например, для нормального и равномерного распределений l = 2, для биномиального

и пуассоновского распределений l = 1). Критическая точка χcr2 (α, m) находится в специальной таблице, входом в которую являются уровень значимости α и число степеней свободы m (приложение 4). При χ 2 < χcr2 (α, m) нет оснований

отклонить основную гипотезу о виде распределения. В противном случае H0 отвергается.

109

Пример 20 (окончание). Проверим гипотезу о нормальном распределении, которая использовалась при получении теоретических частот. Получаем:

χ2 = 2,1, m = 7 12 = 4 , χcr2 (0,05; 4) = 9,5 . Нет оснований для отклонения гипотезы. При данном уровне значимости (α = 0,05) гипотезу о нормальном распределении признака в генеральной совокупности можно принять.

Задание для лабораторной работы

Задание 8.1. С целью изучения прочности некоторого изделия исследованы образцы, для каждого из которых определён предел прочности на раз-

рыв. Весь интервал значений (от 40 107 до 58 107 Н/м2 ) разбит на 9 интервалов равной длины, и определены частоты попадания в каждый ин-

тервал. В табл. 8.2 указаны середины интервалов (в 107 Н/м2 ) и частóты.

8.1.1.Полагая, что в генеральной совокупности количественный признак (предел прочности на разрыв) распределён нормально, произвести выравнивание статистического ряда. На одном графике показать эмпирические и теоретические частоты.

8.1.2.Проверить гипотезу о нормальном распределении, задавшись уровнем значимости α = 0,05.

Табл. 8.2. Исходные данные к заданию 8.1

xi

41

43

45

47

49

51

53

55

57

ni

0

5

8

12

10

17

13

6

4

Инструкция по выполнению задания в EXCEL

Подготовьте следующую таблицу:

 

 

A

B

C

D

1

 

Варианты

Эмпир. част.

Теор. част.

Слагаемые

2

 

41

0

 

 

3

 

43

5

 

 

4

 

45

8

 

 

 

 

 

5

 

47

12

 

 

6

 

49

10

 

 

7

 

51

17

 

 

8

 

53

13

 

 

9

 

55

6

 

 

10

 

57

4

 

 

11

 

Суммы

 

 

 

12

 

 

 

 

 

13

 

средняя

 

 

 

14

 

среднекв. отклонение

 

 

110

В данном случае мы имеем дело со сгруппированными данными, и функции СРЗНАЧ, ДИСП, СТАНДОТКЛОН не годятся. Однако можно применить известную нам функцию СУММПРОИЗВ. Прежде всего, введите в ячейке B11 функцию СУММ, которая будет, суммируя эмпирические частоты, давать объём выборки. Результат: 75. В ячейке B13 должна быть введена формула, рассчитывающая среднюю по сгруппированным данным. Сделайте это с помощью функции СУММПРОИЗВ. Деля на объём выборки, набирайте не конкретное число, а адрес ячейки. Результат: 41,91.

Так как объём выборки достаточно велик, не будем «исправлять» значения выборочной дисперсии и выборочного среднеквадратического отклонения. Найдём последнюю величину по формуле (7.4) как

 

k

 

 

xi2ni

x2 ,

σ =

i=1

 

n

 

для чего введём в ячейке D14 формулу

=КОРЕНЬ(СУММПРОИЗВ(A2:A10;A2:A10;B2:B10)/B11-D13^2).

Результат: 3,728.

В ячейках следующего столбца таблицы должны быть помещены формулы для расчёта теоретических частот. Для этого воспользуемся функцией НОРМРАСП из списка Статистические, которая вычисляет значение плотности вероятности нормального распределения (мы пользовались ею в работе 4).

Вкачестве первых трёх её аргументов должны быть введены значения x , x и

σ, а на месте четвертого аргумента необходимо набрать Ложь (мы ищем не интегральную функцию распределения, а функцию плотности).

Используем формулу массива. Выделим диапазон C2:C10 и введём формулу массива:

=НОРМРАСП(A2:A10;D13;D14;ЛОЖЬ)*2*B11.

(Здесь мы учли длину интервала h = 2 и адреса ячеек, в которых введены объём выборки, средняя и среднеквадратическое отклонение.) Далее поступаем точно так, как мы делали ранее (работа 7) при обращении к функции ЧАСТОТА, когда результатом являлся массив (через клавишу [F2] и комбинацию клавиш [Ctrl]+[Shift]+[Enter]). В результате столбец C2:C10 заполнится теоретическими частотами нормального распределения.

Постройте диаграмму, показывающую распределение эмпирических и теоретических частот. Среди нестандартных диаграмм выберите График/гистограмма и отформатируйте (рис. 8.1).

Для вычисления слагаемых наблюдаемого значения χ2 в ячейку D2 введём формулу =(B2-C2)^2/C2 и с помощью Автозаполнения заполним остальные ячейки столбца (до D10 включительно). Теперь применим Автозаполнение к ячейкам C11, D11 от «источника» B11, где введена функция СУММ. В

111

результате получим наблюдаемое значение критерия χ2 =5,845. В таблице (приложение 4) находим критическую точку

χcr2 (0,05; 9 12) = χcr2 (0,05; 6) =12,6.

 

Частоты

 

 

 

 

 

 

 

20

 

 

 

 

 

 

 

 

15

 

 

 

 

 

 

 

 

10

 

 

 

 

 

 

 

 

5

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

41

43

45

47

49

51

53

55

57

 

Рис. 8.1. Диаграмма эмпирических и

 

 

 

теоретических частот

 

 

Т. к. χ2 < χcr2 , нет оснований для отклонения гипотезы. В генеральной совокупности признак распределён по нормальному закону.

Инструкция по выполнению задания в Mathcad

Присвоим переменной ORIGIN значение равное 1.

Зададим векторы X и N размером 9×1 и введем в них исходные данные из таблицы 8.2.

Рассчитаем среднюю по сгруппированным данным по формуле (7.2). Числитель этой формулы можно вычислить как скалярное произведение

векторов X и N, знаменатель – как сумму элементов вектора N. Объём выборки n (знаменатель) вычислим отдельно, так как он будет фигурировать еще в не-

скольких формулах. Для этого используйте кнопку (сумма вектора) панели Матрицы и в появившемся шаблоне вставьте имя вектора N. Набранная формула будет иметь вид n := N . Результат n=75.

Для ввода формулы (7.2) после ввода имени переменной Xa и знака присваивания нажмите клавишу « / » (деление), появится шаблон дроби. В числи-

теле щелкните по кнопке (скалярное произведение) панели Матрицы и в появившемся шаблоне вставьте имена векторов X и N. В знаменателе вставьте переменную n.

Результат: Xa = 41,907.

Так как объём выборки достаточно велик, не будем «исправлять» значения выборочной дисперсии и выборочного среднеквадратического отклонения. Найдём последнюю величину по формуле (7.4) как

112

 

k

 

 

xi2ni

x2 .

σ =

i=1

 

n

 

Предварительно вычислим вектор Х2, элементами которого являются Xi2 , используя дискретные переменные:

i :=1 .. 9

X 2i := X i2

Формулу (7.4) введем аналогично выражению для средней (Ха). После имени переменной σ и знака присваивания последовательно нажмите кнопки:

и панели Калькулятор, затем клавишу « / » (деление), появится шаб-

лон дроби. В числителе щелкните по кнопке (скалярное произведение) панели Матрицы и в появившемся шаблоне вставьте имена векторов X2 и N. В знаменателе вставьте переменную n. Далее нажимайте клавиши « », «знак

минус», введите имя переменной , нажмите кнопку панели Калькулятор и несколько раз клавишу « » до выхода из под знака корня. Полученная формула должна иметь вид:

σ :=

 

X 2 N

Xa

2

 

 

 

 

 

n

 

 

Результат: σ = 3,728.

Проведем расчёт теоретических частот в соответствии с формулами (8.3):

 

ϕ(z

)

 

 

x

i

a*

ni′ = nh

i

 

,

zi =

 

 

s

 

 

 

s

 

 

 

 

 

 

Для этого воспользуемся дискретными переменными и функцией dnorm(х, mu, sigma) категории Probability density (Плотность вероятности), которая возвращает плотность вероятности нормального распределения со средним mu и среднеквадратическим отклонением sigma. При этом считаем случайную величину нормированной (mu = 0, sigma = 1). Предварительно введем длину интервала h = 2 . Полученные формулы должны иметь вид:

h := 2

i :=1 .. 9 zi

:=

X i Xa

 

σ

 

 

 

 

i :=1 .. 9

Nti := n

h

dnorm(zi ,0,1)

 

 

σ

 

 

 

Для того чтобы создать график в виде гистограммы нужно сначала по-

строить двумерный график. Для этого щелкните по кнопке панели инструментов Графики. В появившемся шаблоне задайте переменные оси абсцисс (вектор X) и оси ординат (векторы N и Nt через запятую), а также пределы по этим осям от 40 до 58 и от 0 до 20 соответственно.

113

Затем войдите в диалоговое окно Formatting Currently Selected Graph

(Форматирование) выбранного графика (например, двойным щелчком мыши) и перейдите на вкладку Traces (Графики).

Установите вектору N) в поле кнопку ОК. Затем подписи по осям.

для серии данных гистограммы (кривая, соответствующая Туре (Тип) элемент списка solidbar (гистограмма) и нажмите перейдите на вкладку «Подписи» и введите соответствующие Полученная гистограмма подобна приведенной на рис. 8.2.

Рис. 8.2. Сравнение эмпирических и теоретических частот (задание 8.1)

Приступим к выполнению задания 8.1.2.

Для вычисления слагаемых наблюдаемого значения χ2 введите формулы

j :=1 .. 9

x2 j :=

(N j Nt j )2

kx2 := x2

Nt j

 

 

 

В результате получим наблюдаемое значение критерия χ2 kx2 = 5,845. В таблице (приложение 4) находим критическую точку

χcr2 (0.05, 9 12) = χcr2 (0,05; 6) =12,6 .

Т. к. χ2 < χcr2 , нет оснований для отклонения гипотезы. В генеральной совокупности признак распределён по нормальному закону.

Контрольные вопросы

1.Чем руководствуются, подбирая тип предполагаемого распределения признака?

2.Объясните принцип расчёта теоретических частот.

3.Проанализируйте поведение критерия согласия (Пирсона) при приближении теоретических частот к эмпирическим частотам.

114