Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Теория вероятностей и математическая статистика_Гусева Е.Н_2011 -220с

.pdf
Скачиваний:
47
Добавлен:
23.08.2019
Размер:
3.06 Mб
Скачать

 

 

 

 

A

 

 

B

 

C

 

 

 

D

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Случайная

 

 

 

 

1

 

 

Генеральная

 

Номер

 

Адрес

 

 

 

 

 

 

 

 

 

совокупность

 

элемента

 

 

 

 

выборка

 

 

 

 

2

 

 

0,7534

 

 

3

 

A3

 

 

0,2547

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=ДВССЫЛ(c2)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

 

 

0,2547

 

 

51

 

A51

 

 

-0,1643

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=СЦЕПИТЬ("A"; b3)

 

50

 

 

0,6322

 

 

857

 

СЛУЧМЕЖДУ

 

(1;1000)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,7534

 

 

 

 

 

51

 

 

-0,1643

 

 

2

 

А2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 27. Пример использования функций

Контрольные вопросы:

1.Чем отличаются случайная выборка с возвращением и без возвращения? Привести примеры.

2.Какой метод отбора элементов используется для механической выборки? Каковы недостатки механической выборки?

3.Объяснить принципы отбора элементов для типической и серийной выборок.

4.Сравнить параметры распределений и виды графиков для разных выборок и генеральной совокупности.

5.Сделать вывод о репрезентативности различных методов получения выборочных данных.

Лабораторная работа № 4

200

Проверка гипотез на основе критерия согласия Пирсона

Цель: освоить алгоритм проверки непараметрических гипотез 2

Критерий Пирсона или χ2 — наиболее часто используемый статистический критерий для проверки гипотезы о законе распределения случайной величины. Во многих практических задачах закон распределения неизвестен и требует определения. Для достоверного выбора того или иного закона формулируется гипотеза, которая требует подтверждения.

По выборочным данным строится полигон частот и рассчитываются параметры распределения. Гипотеза о предполагаемом законе распределения изучаемого признака выдвигается на основе исследования выборки.

Нулевая гипотеза несет информацию о законе распределения. Например: Н0: F(x)=F0(x); где F0(x)=Ф(х; 0,02). Выборочная совокупность имеет нормальное распределение.

Тогда конкурирующая гипотеза: выборочная совокупность имеет распределение, отличное от нормального.

Критерий Пирсона является алгоритмом, позволяющим сделать вывод о достоверности выдвинутой гипотезы. Последовательность действий для определения критерия χ2 описана ниже.

1.Построить таблицу частот опытного распределения в выбранных интервалах (см. лаб. работу 1). Если среди опытных

частот имеются малочисленные (ni < 5), то объединить их с соседними. Это будет выбор групп.

2.Определить теоретические частоты при помощи выбранного закона распределения (например, нормального):

201

Теоретическая частота

для

 

i-го

 

 

интервала

 

(группы)

 

no n

 

 

 

i

x

 

 

i

x

 

определяется по формуле:

 

 

 

 

 

 

 

 

 

 

 

 

, где

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n — объем выборки; i, i — границы интервала, Ф(t) — нормированная (стандартная) функция. Например, имеется ряд интервалов: 25, 28, 31, 34, ...

Для i = 2, i = 28, i = 31. Значение Ф(t) вычисляется (если использовать Exсel), как функция нормального распределения, с

n =

0, n

= 1, а

значение

х

вычисляется по формуле:

x2

i x

 

и x1

i x

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m

( n no ) 2

 

 

 

 

 

 

 

2

 

 

i

i

2

3.

По формуле

 

 

 

 

 

 

 

 

вычислить величину .

 

 

 

i 1

 

n0

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

Это будет 20.

4.Определить число степеней свободы k.

5.Воспользовавшись специальной таблицей, по

полученным значениям 2 и k, найти вероятность того, что случайная величина, имеющая 2 -распределение, примет какоелибо значение, не меньшее 20: Р( 2 20) = .

6.Сформулировать вывод, руководствуясь общим принципом применения критериев согласия: если вероятность больше 0.01, то имеющиеся расхождения между теоретическими и эмпирическими частотами следует считать несущественными, а опытное распределение — согласующимся с теоретическим. В противном случае ( 0.01), указанные расхождения признаются неслучайными, а закон распределения, избранный в качестве предполагаемого теоретического — отвергается.

Задание:

202

1.Используя набор данных из лабораторной работы №1, провести оценку по критерию 2. В качестве гипотезы выбрать: «Экспериментальные данные подчиняются закону нормального распределения».

2.Рассчитать необходимые параметры для выбранной гипотезы.

3.Построить таблицу для расчета 2. Примерный вид таблицы для анализа (табл. 26.

4.Рассчитать критерий согласия Пирсона. Для вероятности = 0.05, сделать вывод подтверждении или отрицании гипотезы нормального распределения данных измерений. Воспользоваться функцией Excel — ХИ2ОБР(), которая выдает

значения таблицы вероятностей Р для критерия 2

(Пирсона).

Если табличное значение оказалось меньше рассчитанного экспериментальным путем 2, то в этом случае нулевая гипотеза принимается, поскольку отклонения экспериментальных частот от теоретических являются несущественными.

Таблица 26

Расчетная таблица

Интервал

Частота

i- x

i- x Ф(х1) Ф(x2)

Теоретич

Разности

(ni-nio)2

 

i- i

частота

0

)

0

 

 

 

 

 

(ni-ni

ni

 

χ2

Контрольные вопросы

1. Объясните, чем отличаются непараметрические методы проверки гипотез от параметрических.

203

2.К какому из методов проверки гипотез относится критерий Пирсона?

3.Что называется теоретической частотой?

4.Опишите алгоритм проверки гипотезы по критерию χ2.

5.Как определить число связей и число степеней свободы?

6.Что такое доверительный интервал и как он определяется?

7.Какие данные позволяют сделать вывод об истинности или ложности гипотезы при расчетах критерия Пирсона?

Лабораторная работа № 5

Основы корреляционного анализа Цель: формирование навыков изучения тесноты и вида связи между случайными величинами.

Исследуйте зависимость между официальным курсом доллара США за 12 месяцев 2009 г и ценой за баррель нефти сорта «Юралс». Статистические данные получены с сайта Банка России: http://www.cbr.ru/statistics и представлены в табл. 27.

Таблица 27

Курс доллара и цена нефти за 2009 год

1

2

3

4

5

6

7

8

9

10

11

12

X

41,9

42,2

45,4

48,7

56,5

68,2

64,3

72

67

72,4

76

73,7

Y

35,4

35,7

34,0

33,3

31,0

31,3

31,8

31,6

30,1

29,1

29,8

30,2

Обозначения данных в таблице: N – номер месяца 2009 года, Y – курс доллара в рублях, X – цена 1 барреля нефти в долларах. Выборочное уравнение прямой регрессии Y на X определяется по формуле:

Y Y rxy y (X i X ) .

i

x

 

204

Задание

1.По данным выборки найти корреляционную зависимость между случайными величинами и построить линейное приближение методом наименьших квадратов.

2.Построить диаграмму рассеяния.

3.Рассчитать коэффициент корреляции rxy и оценить вид связи (прямая, обратная, сильная, слабая, нет связи).

4.По внешнему виду диаграммы рассеяния определить, является связь прямой или обратной.

5.Построить однофакторную линейную регрессионную модель связи признаков Х и Y, используя инструмент Регрессия надстройки Пакет анализа, и оценить тесноту связи признаков Х

иY на основе линейного коэффициента корреляции r.

6.Добавить на диаграмму рассеяния линию тренда (зависимость определить линейной) и вывести на диаграмму уравнение регрессии (во вкладке Параметры опция «Показывать уравнение на диаграмме»).

Контрольные вопросы

1.Что такое корреляция?

2.Как измерить связь между двумя случайными величинами?

3.Какие виды зависимостей существуют между величинами?

4.Что показывает коэффициент корреляции?

5.Приведите значения коэффициента корреляции и вид связей, который соответствует каждому значению.

6.Какие выводы можно сделать по внешнему виду диаграммы рассеяния?

Лабораторная работа № 6

205

Линейный регрессионный анализ Цель: получение навыков исследования данных с помощью

линейного регрессионного анализа. Знакомство с методом наименьших квадратов.

Пусть имеются две коррелированные случайные величины X и Y. Если связь между двумя величинами линейная, то ее

можно представить зависимостью:

~ , y A Bx

где А и В — это соответственно отрезок оси ординат, отсекаемой прямой, и ее наклон. Если данные связаны

идеальной

~

линейной зависимостью, то

можно предсказать

значение

по известному значению xi.

Если предположить

yi

существование линейной связи и наличие неограниченной выборки, то можно подобрать значения параметров А и В,

которые обеспечат расчет прогнозируемого ~ . yi

Общепринятая процедура определения коэффициентов уравнения состоит в выборе таких значений А и В, которые минимизируют сумму квадратов отклонений наблюдаемых значений от предсказанного значения у. Эта процедура называется методом наименьших квадратов. Поскольку отклонения наблюдаемых значений от предсказанных равны

~ , то сумма квадратов отклонений yi y yi (A Bxi )

имеет вид

n

Q( yi A Bxi )2 .

i1

Следовательно, наилучшее согласие в смысле наименьших квадратов обеспечивают значения А и В, для которых

Q Q 0.

A B

206

Мы имеем ограниченную выборка из N пар наблюдений значений х и у. Это означает, что данное уравнение даст всего лишь оценки А и В; обозначим их через а и b соответственно. Решая систему уравнений относительно оценок величин А и В, получим

a y bx,

 

n

 

 

 

 

(xi

x) (yi

y)

b

i 1

 

 

,

n

 

 

 

(xi x)2

 

 

 

i 1

 

 

 

или в обозначениях коэффициента корреляции и выборочных дисперсией:

b

sxy

r

 

sy

.

sx2

 

 

xy

 

sx

Эти оценки можно использовать для построения модели, позволяющей предсказывать у по данному х:

yˆ a bx y b(x x).

Прямая линия, задаваемая указанным уравнением, называется прямой линейной регрессии у на х.

Доверительные интервалы

В лабораторной работе № 1 использовались выборочные значения для оценки параметров распределений случайных величин. Такие процедуры дают только точечные оценки интересующих параметров. Они не позволяют судить о степени близости выборочных значений к оцениваемому параметру. Более содержательны процедуры оценивания параметров, связанные не с получением точечного значения, а с построением

207

интервала, который накрывает оцениваемый параметр с известной степенью достоверности.

Пусть, например, выборочное среднее арифметическое x , вычисленное по n независимым наблюдениям случайной величины х, используется в качестве оценки среднего х. Обычно представляет интерес оценить х в терминах некоторого интервала x d , в который х попадает с заданной степенью достоверности. Такие интервалы можно построить, если известны выборочные распределения рассматриваемой оценки.

Относительно значения выборочного среднего x можно сделать следующее вероятностное утверждение:

 

 

 

 

x

 

 

n

 

 

 

 

 

 

x

 

 

P

(1

/ 2)

 

 

 

 

/ 2

1 ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

где Ф() — стандартная функция распределения; — называется вероятностью ошибки, или уровнем значимости. А значение S = 1 – — статистической достоверностью. S измеряют часто в процентах и говорят, например, о 95%-м доверительном интервале (S = (1 – ) 100%). В этом случае = 0.05 (см. лабораторную работу о критерии оценки хи-квадрат).

По мере уменьшения (увеличения интервала, заключенного между Ф(1- /2) и Ф( /2)) разумно считать, что вероятность Р скорее равна единице, чем нулю. Иначе говоря, если производится много выборок, и для каждой из них вычисляется x , то можно ожидать, что она будет попадать в указанный интервал с относительной частотой, примерно равной 1 – . При таком подходе можно утверждать, что

 

x x

 

 

существует интервал, в который величина

n

попадает

x

 

 

 

 

208

с большой степенью достоверности. Такие утверждения называют доверительными. Интервал, относительно которого делается доверительное утверждение, называется доверительным интервалом. Степень доверия, сопоставляемая доверительному утверждению, называется уровнем доверия.

Распределение yˆ при конкретном значении x x0 представляет особый интерес ( yˆ — значение, вычисленное по

полученному уравнению регрессии,

~

— оценочное

y

интервальное значение):

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

12

~

 

 

 

 

1

 

x0 x 2

 

 

 

 

 

 

 

y yˆ sy

 

x tN 2

 

 

 

 

 

 

.

 

N

N

 

 

 

 

 

 

 

 

 

 

 

 

 

xi x 2

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

12

 

 

 

 

 

 

1

 

x0 x 2

 

 

 

Значение

y sy

 

x tN 2

 

 

 

 

 

 

 

будет определять

 

N

N

 

 

 

 

 

 

 

 

 

xi x

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

границы интервала для заданного значения .

В формулах величина sy x — выборочное стандартное

отклонение наблюдаемого значения yi от предсказанного yi a bxi , равное

 

 

 

 

 

N

2

12

 

 

 

 

 

 

12

 

 

 

 

 

yi yˆi

 

 

 

n 1

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

s

y

 

x

 

 

 

 

 

 

sy2

1 rxy2

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N 2

 

 

 

n 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Задание

209