Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Сибирский Государственный Индустриальный Университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Анализ данных отчеты Катков / Prakticheskaya_rabota_2

.pdf

Скачиваний:

Добавлен:

27.05.2015

Размер:

319.08 Кб

Скачать

☆

<<< < Предыдущая 12 / 22

		a
							a
0	a1	ε	а~	ε		a2	a
		ε		ε
Рисунок 3 – Доверительный интервал для оценки параметра а~
Перепишем (21) в виде:		~
~		~					(22)
P(a	−ε < a < a +ε) = р						(22)
Равенство (22) означает, что с вероятностью р неизвестное зна-
чение параметра а попадает в интервал I р				~	~	+ε)
чение параметра а попадает в интервал I р				= (a	−ε,a	+ε)

При этом необходимо отметить одно обстоятельство: величина а неслучайна, зато случаен интервал Iр. Случайно его положение на оси абсцисс, определяемое его центром а; случайна вообще и длина интервала 2ε, так как величина ε вычисляется, как правило, по опытным данным. Поэтому в данном случае лучше будет толковать величину р не как вероятность «попадания» точки а в интервал Iр, а как вероятность того, что случайный интервал Iр. накроет точку а (рисунок 3).

Вероятность р принято называть доверительной вероятностью, а интервал Iр. – доверительным интервалом. Границы интервала Iр.:

а1 = a~ −ε и а2 = a~ +ε называются доверительными границами.

Дадим еще одно истолкование понятию доверительного интервала: его можно рассматривать как интервал значений параметра а, совместимых с опытными данными и не противоречащих им. Действительно, если условиться считать событие с вероятностью α = 1 – р практически невозможным, то те значения параметра а, для которых | a~ −a |>ε , нужно признать противоречащими опытным данным, а те,

для которых | a~ −a | M <ε , — совместимыми с ними.

Перейдем к вопросу о нахождении доверительных границ a1 и

а2.

Пусть для параметра а имеется несмещенная оценка а~. Если бы был известен закон распределения величины а~ , задача нахождения доверительного интервала была бы весьма проста: достаточно было бы найти такое значение ε для которого

P(| a −а|<ε) = р

(23)

Затруднение состоит в том, что закон распределения оценки а зависит от закона распределения величины X и, следовательно, от его неизвестных параметров (в частности, и от самого параметра а).

Чтобы обойти это затруднение, можно применить следующий грубо приближенный прием: заменить в выражении для ε неизвестные параметры их точечными оценками. При сравнительно большом числе опытов L (порядка 20 – 30) этот прием обычно дает удовлетворительные по точности результаты.

В качестве примера рассмотрим задачу о доверительном интервале для математического ожидания.

Пусть произведено L независимых опытов над случайной величиной X, характеристики которой – математическое ожидание ~x и дисперсия D неизвестны. Для этих параметров получены оценки:

∑x(l)

~ = l=1 x

		L	~	2
		∑	~	2
~		∑	(x(l) − x )
~		l=1
, d	=	l=1			(24)
, d	=		L −1		(24)
			L −1

Требуется построить доверительный интервал Ip., соответствующий доверительной вероятности p, для математического ожидания то величины X.

При решении этой задачи воспользуемся тем, что величина ~x представляет собой сумму L независимых одинаково распределенных случайных величин Хp и, согласно центральной предельной теореме, при достаточно большом L ее закон распределения близок к нормальному. На практике даже при относительно небольшом числе слагаемых (порядка 10 – 20) закон распределения суммы можно приближенно считать нормальным. Будем исходить из того, что величина то распределена по нормальному закону. Характеристики этого закона – это математическое ожидание и дисперсия – равны соответственно ~x

и	~	/L. Предположим, что величина		~	известна, найдем			такую вели-
и	d	/L. Предположим, что величина		d	известна, найдем			такую вели-
чину εp, для которой								(25)
		P(\| x −m \|< ε p )						(25)
		~
		Применяя формулу				t2
			1	∞		t2
		Ф*(x) =		∫e−			dt ,
		Ф*(x) =		∫e−		2	dt ,	(26)
			2π	−∞

выразим вероятность в левой части (25) через нормальную функцию распределения

~		ε	p
	*		p	−1,
	*	σ~
P(\| x	−m \|< εp ) = 2Ф	σ~
			x

где σ~ =

– среднее квадратическое отклонение оценки

x .

Из уравнения

2Ф

−1

= p

σ~

находим значение εβ:

1+ p

=σ~ argФ

(27)

(28)

(29)

где argФ*(х) – функция, обратная Ф*(х), т.е. такое значение аргумента, при котором нормальная функция распределения равна х.

Дисперсия D, через которую выражена величина σ~x , нам в точности не известна; в качестве ее ориентировочного значения можно

~	(24) и положить приближенно:
воспользоваться оценкой d	(24) и положить приближенно:
		~
	σ~ = d			(30)
	x	L
		L
Таким образом, приближенно решена задача построения дове-
рительного интервала, который~равен~			+ε p ) ,	(31)
I p = (x		−ε p , x	+ε p ) ,	(31)

где εp определяется формулой (29).

Чтобы избежать при вычислении εp обратного интерполирования в таблицах функции Ф*(х), удобно составить специальную таблицу (таблица 1), где приводятся значения величины

t p = argФ	*	1+ p	(32)


		2

в зависимости от p. Величина tp определяется для нормального закона числа средних квадратических отклонений, которое нужно отложить вправо и влево от центра рассеивания для того, чтобы вероятность попадания в полученный участок была равна p.

Через величину tp доверительный интервал выражается в виде

I = (x −t		σ~ , x +t	σ~ )	(32)
p	~	~	p x
p		p x	p x

Таблица 1 – Значения величины tp в зависимости от вероятности р

p	tp	p	tp	p	tp	p	tp
0,80	1,282	0,86	1,475	0,92	1,750	0,98	2,325
0,81	1,310	0,87	1,513	0,93	1,810	0,99	2,576
0,82	1,340	0,88	1,554	0,94	1,880	0,9973	3,000
0,83	1,371	0,89	1,597	0,95	1,960	0,999	3,290
0.84	1,404	0,90	1,643	0,96	2,053
0,85	1,439	0,91	1,694	0,97	2,169

Пример 1. Имеется ряд отсчетов значений величины X; результаты приведены в таблице 2.

Таблица 2 – Ряд отсчетов значений величины Х

ℓ	x(ℓ)		ℓ	x(ℓ)		ℓ	x(ℓ)		ℓ	x(ℓ)
1	10,5	6		10,6	11		10,6	16		10,9
2	10,8	7		10,9	12		11,3	17		10,8
3	11,2	8		11,0	13		10,5	18		10,7
4	10,9	9		10,3	14		10,7	19		10,9
5	10,4	10		10,8	15		10,8	20		11,0

Требуется найти оценку ~x для математического ожидания т величины X и построить доверительный интервал, соответствующий доверительной вероятности p = 0,8.

~		1	20
Решение. Имеем x	=		∑x(l) =10,78

		20 l=1

Выбрав за начало отсчета х=10, находим по формуле (18) не-

смещенную оценку ~ : d

13,38

−0,78

= 0,064;

σ~

= 0,0564 .

По таблице находим tp = 1,282 и

= t

σ~ = 0,072

Доверительные границы:

x1 = ~x −0,072 =10,71; x2 = ~x +0,072 =10,85

Доверительный интервал:

Ip=(10,71; 10,85)

Значения параметра т, лежащие в этом интервале, являются совместимыми с опытными данными, приведенными в таблице 2.

Аналогичным способом может быть построен доверительный интервал и для дисперсии.

Пусть произведено L независимых опытов над случайной величиной Х с неизвестными параметрами т и D, и для дисперсии D получена несмещенная оценка.

Требуется приближенно построить доверительный интервал для дисперсии.

Из формулы (24) видно, что величина ~ представляет собой d

	~	2
сумму L случайных величин вида	(x(l) − x )		. Эти величины не явля-
сумму L случайных величин вида	L −1		. Эти величины не явля-
	L −1			x	, за-
ются независимыми, так как в любую из них входит величина				x	, за-
				~

висящая от всех остальных. Однако можно показать, что при увеличении L закон распределения их суммы тоже приближается к нормальному. Практически при L = 20 30 он уже может считаться нормальным.

Предположим, что это так, и найдем характеристики этого закона: математическое ожидание и дисперсию. Так как оценка – несме-

щенная, то	~	~
щенная, то	M [d ] = D . Вычисление дисперсии	D[d ] связано со сравни-

тельно сложными выкладками, поэтому приведем ее выражение без вывода:

~	1			L −3		2	,	(33)
D[d ] =		µ4	−		D
	L			L(L −1)

где µ4 – четвертый центральный момент величины X.

Чтобы воспользоваться этим выражением, нужно подставить в него значения µ4 и D (хотя бы приближенные). Вместо D можно вос-

пользоваться его оценкой ~ . В принципе четвертый центральный d

момент µ4 тоже можно заменить его оценкой, например величиной вида:

∑ − ~ 4

(x(l) x )

~	=	l=1		,	(34)
µ4
			L

но такая замена даст крайне невысокую точность, так как вообще при ограниченном числе опытов моменты высокого порядка определяются с большими ошибками. Однако на практике часто бывает, что вид

закона распределения величины X известен заранее: неизвестны лишь его параметры. Тогда можно попытаться выразить µ4 через D.

Возьмем наиболее часто встречающийся случай, когда величина X распределена по нормальному закону. Тогда ее четвертый центральный момент выражается через дисперсию:

µ4=3D2

(35)

и формула (22) дает

L −3

(36)

D[d ] =

−

L(L −1)

или

(37)

D[d

] =

L −1

Заменяя в (37) неизвестное D его оценкой

, получим

(38)

D[d

] =

L −1

откуда

σd

(39)

L −1

Момент µ4 можно выразить через D также и в некоторых других случаях, когда распределение величины Х не является нормальным, но вид его известен. Например, для закона равномерной плотности имеем

µ4 =	(β −α)4	; D =	(β −α)2	,	(40)
	80		12

где (α, β) - интервал, на котором задан закон. Следовательно,

µ4=1,8D2.

По формуле (33) получим

~	0,8L +1,2		2	,	(41)
D[d ] =	L(L −1)	D		,	(41)

откуда находим приближенно

0,8L +1,2 ~

σ~ = d (42) d L(L −1)

Вслучаях, когда вид закона распределения величины X неизвес-

тен, при ориентировочной оценке величины σ ~ рекомендуется все же

пользоваться формулой (39), если нет специальных оснований счи-

тать, что этот закон сильно отличается от нормального (обладает заметным положительным или отрицательным эксцессом).

Если ориентировочное значение σ ~ тем или иным способом по-

лучено, то можно построить доверительный интервал для дисперсии,
аналогично тому, как строили его для математического ожидания:
~	~	(43)
I p = (d −t pσd	,d +t pσd ),
~	~

где величина tp в зависимости от заданной вероятности p находится по таблице 1.

Пример 2. Найти приближенно с восьмидесяти процентной вероятностью доверительный интервал для дисперсии случайной величины Х в условиях примера 1, если известно, что величина X распределена по закону, близкому к нормальному.

Решение. Величина tp остается такой же, как и в примере 1: tp =1,282

По формуле (39)

σd =	2	0,064	= 0,0207
~	19
	19

По формуле (43) находим доверительный интервал:

Ip=(0,043; 0,085)

Соответствующий интервал значений среднего квадратического отклонения: (0,21; 0,29).

Задание 2

Для полученных оценок в задании 1 выборочного среднего значения и дисперсии найти их доверительные интервалы с вероятно-

стью р= 95 %.

СПИСОК ЛИТЕРАТУРЫ

1.Вентцель Е.С. Теория вероятностей и ее инженерные приложения / Е.С. Вентцель, Л.А. Очаров. – М. : Высшая школа, 2010. – 480 с.

2.Назаров М.Г. Статистика: учебно-практическое пособие для вузов / М.Г. Назаров, В.С. Варагин, Т.Б. Великанова [и др.]. – М. :

КноРус, 2009. – 480 с.

3.Мелкунов Я.С. Социально-экномическая статистика: учебное пособия для вузов / Я.С. Мелкунов. – М. : Инфра-М, 2009. – 235 с.

4.Гмурман В.Е. Теория вероятностей и математическая статистика : учебное пособие для вузов / В.Е. Гмурман. – М. : Высшее об-

разование, 2008. – 479 с.

Учебное издание

Составитель Кораблина Татьяна Валентиновна

СТАТИСТИЧЕСКИЕ ХАРАКТЕРИСТИКИ

Методические указания к выполнению практической работы №2 по дисциплине «Анализ и обработка данных»

для студентов специальности 080801 – Прикладная информатика (в управлении),

Редактор Н.И. Суганяк

Подписано в печать Формат бумаги 60х84 1/16. Бумага писчая. Печать офсетная

Усл. печ. л. Уч.-изд. л. Тираж экз. Заказ

Сибирский государственный индустриальный университет, 654007, г. Новокузнецк, ул. Кирова, 42.

Типография СибГИУ

<<< < Предыдущая 12 / 22

Соседние файлы в папке Анализ данных отчеты Катков

#
27.05.2015918.96 Кб22Analiz_dannykh_Lektsii_4.pdf
#
27.05.2015319.08 Кб21Prakticheskaya_rabota_2.pdf
#
27.05.2015110.25 Кб24Prakticheskaya_rabota_3.pdf
#
27.05.2015340.23 Кб24Prakticheskaya_rabota_4.pdf
#
27.05.201526.95 Кб40Лаба№1 Катков Д.В.xlsx
#
27.05.201520.94 Кб32Лаба№2 Катков Д.В.xlsx
#
27.05.201539.95 Кб41Лаба№3 Катков Д.В.xlsx