Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Томский Государственный Университет Систем Управления и Радиоэлектроники

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

теория вероятностей

.pdf

Скачиваний:

196

Добавлен:

11.05.2015

Размер:

3.26 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 89 / 139 10 11 12 13 > Следующая >>>

где n — объем выборки;

k — количество интервалов (групп наблюдений);

n j — количество наблюдений, попавших в j-й интервал;

p j — вероятность попадания в j-й интервал случайной величины, распре-

деленной по гипотетическому закону.

Если предположение о виде закона распределения справедливо, то статистика Пирсона распределена по закону «хи-квадрат» с числом степеней сво-

боды	k −r −1 (r — число параметров распределения, оцениваемых по вы-
борке):	K ~ χ(2k −r −1).

Пример 1. на уровне значимости α = 0.025 проверить гипотезу о нормальном распределении веса новорожденных (пример 2 подраздела 3.2).

Решение. Сформулируем основную и альтернативную гипотезы.

H0 : X ~ N (a, σ) — случайная величина X (вес новорожденных) под-

чиняется нормальному закону с параметрами a и σ. Так как истинных зна-

чений параметров		a и σ мы не знаем, возьмем их оценки, рассчитанные по

выборке: a	= 3.746, σ = 0.399.

H1 : случайная величина X не подчиняется нормальному закону с дан-

ными параметрами.	Kнабл
Рассчитаем наблюдаемое значение	Kнабл	статистики Пирсона. Эмпи-
рические частоты n j уже известны (табл. 3.3),		а для вычисления вероятно-
стей p j (в предположении, что гипотеза	H0	справедлива) применим фор-
мулу (2.1):


	a j +1 −a
	p j = P(a j < X < a j +1) = Φ
	p j = P(a j < X < a j +1) = Φ

		σ

−Φ

−

a j a , j =1, 2, ..., k

и таблицу функции Лапласа (приложение 1). Полученные результаты сведем в таблицу (табл. 6.7). Наблюдаемое значение статистики Пирсона равно

Kнабл = 0.978.

Определим границу критической области. Так как статистика Пирсона измеряет разницу между эмпирическим и теоретическим распределениями, то

чем больше ее наблюдаемое значение Kнабл , тем сильнее довод против основной гипотезы. Поэтому критическая область для этой статистики всегда

правосторонняя: [K ; +∞). Её границу K = χ2 − − α находим по таб-

кр кр (k r 1; )

лицам распределения «хи-квадрат» (приложение 2) и заданным значениям α = 0.025, k = 6 (число интервалов), r = 2 (параметры a и σ оценены по

выборке): Kкр = χ2 (6 −2 −1; 0.025) = χ2 (3; 0.025) = 9.4.

Наблюдаемое значение статистики Пирсона не попадает в критическую область: Kнабл < Kкр, поэтому нет оснований отвергать основную гипотезу.

Вывод: на уровне значимости 0.025 справедливо предположение о том, что вес новорожденных имеет нормальное распределение.

Таблица 6.7

Сравнение наблюдаемых и ожидаемых частот

№	Интервалы	На-	Вероятность	Ожидаемая		Слагаемые
п/п	группировки	блю-	p j	частота		статистики
	[a j;a j +1)	дае-	попадания в	n p j		Пирсона
	[a j;a j +1)	мая	попадания в	n p j		(n j −np j )	2
		мая	j-й интервал				2
		час-
		час-				np j
		тота				np j
		n j
1.	[3; 3.3)	4	0.101	3.032	0.309
2.	[3.3; 3.6)	7	0.225	6.761	0.008
3.	[3.6; 3.9)	10	0.295	8.79	0.166
4.	[3.9; 4.2)	5	0.222	6.665	0.416
5.	[4.2; 4.5)	3	0.098	2.946	0.001
6.	[4.5; 4.8)	1	0.025	0.758	0.077
∑	—	30	0.965	28.95	Kнабл = 0.978.

6.4. Проверка гипотез об однородности данных

6.4.1. Критерий знаков

На практике часто возникает задача сравнения двух методов обработки, двух рационов питания, двух методик обучения и т.п. В статистике эту задачу можно решить с помощью критериев однородности.

Рассмотрим вначале случай парных наблюдений: для каждого объекта измеряются два значения интересующего нас признака (например, до воздей-

ствия и после). Результатом будут две группы наблюдений: x1, x2 , ..., xn и

y1, y2 , ..., yn.

Основная гипотеза имеет вид: H0 : F1(x) = F2 (x) — закон распределения генеральной совокупности X, из которой извлечена первая выборка, тот же

самый, что и закон распределения Y. Предполагается, что разности xi − yi взаимно независимы (i =1, 2, ..., n) и P(xi < yi ) = P(xi > yi ) = 0.5.

Для каждой разности xi − yi определим ее знак и подсчитаем количество Kнабл — количество тех знаков, которых меньше в данной выборке. Критическим значением Kкрбудем считать такое, что при заданном уровне зна-

чимости α P(K ≤ Kкр) ≤ α.

Некоторые значения критических точек приведены в таблице 6.8.

Таблица 6.8

Критические точки для критерия знаков

Уровень			Объем выборки n
значимости α	5	10		15	20	25	30
0.01	0	0		2	3	5	7
0.05	0	1		3	5	7	9
0.1	0	1		3	5	7	10

Пример 1. Для желающих похудеть была предложена специальная диета. У десяти участников эксперимента измеряли вес до применения диеты (Х, кг) и после применения (Y, кг) (табл. 6.9).

Оказывает ли диета какое-либо существенное влияние на вес?

Таблица 6.9

Исходные данные для примера 1

Х	68	80	92	81	70	79	78	66	57	76
Y	60	84	87	79	74	71	72	67	56	70

Решение. Сформулируем основную и альтернативную гипотезы:

H0 : F1(x) = F2 (x) — выборочные данные однородны, выборки извле-

чены из генеральных совокупностей с одинаковыми распределениями. Применительно к условиям: диета не оказывает существенного влияния на вес тела.

H1 : F1(x) ≠ F2 (x) — выборки неоднородны; распределения генераль-

ных совокупностей Х и Y различны; диета оказывает влияние на вес.
Запишем	последовательность	знаков	разностей

xi − yi : +,−,+,−,−,+,+,−,+,+. Знак «+» в этой последовательности встречает-

ся 6 раз, а «–» — 4 раза, поэтому Kнабл равно количеству знаков «минус»:

Kнабл = 4.

Для данного объема выборки n =10 критическое значение Kкр =1 при

α = 0.05 и α = 0.1. Поэтому наблюдаемый результат Kнабл = 4 не является маловероятным при условии, что гипотеза H0 справедлива, вероятность

этого события больше 0.1.

Следовательно, на уровне значимости 0.1 нет оснований отвергать гипотезу H0 , диета не оказывает существенного влияния на вес.

Заметим, что если среди пар значений xi и yi , есть равные xi = yi , то

их следует отбросить, соответственно уменьшив объем выборки n.

Критерий знаков применяется для выборок малого объема, его основное достоинство — простота.

6.4.2. Критерий Вилкоксона

Этот критерий используется для проверки однородности двух независимых выборок x1, x2 , ..., xn1 и y1, y2 , ..., yn2 . Он применяется к случайным

величинам, распределения которых неизвестны, но являются непрерывными. Основная гипотеза имеет вид H0 : F1(x) = F2 (x), а альтернативная ги-

потеза может быть левосторонней, правосторонней или двусторонней.

При использовании критерия Вилкоксона все вычисления проводятся не для самих наблюдаемых значений xi , yi , а для их рангов. Ранг — это порядковый номер наблюдения в данной выборке, если наблюдаемые значения рас-


положить	по возрастанию.		Например, выборке	x1 =12.6, x2 =11.4,
x3 =13.1,	x4 =11.9	соответствует последовательность рангов			r1 = 3,
r2 =1, r3 = 4, r4 = 2.		Если	в выборке встречаются	несколько одинаковых

значений, то им ставится в соответствие одинаковый ранг — среднее арифме-

тическое	порядковых	номеров.	Так,	для	выборки
x1 =10, x2 = 9.5, x3 =11, x4 =10.5, x5 = 9.5, x6 =8, x7 =11, x8 =11						после-
довательность	рангов имеет	вид: r1 = 4, r2 = 2.5, r3 = 7, r4 = 5, r5 = 2.5,
r6 =1, r7 = 7, r8 = 7. Здесь ранг значения 9.5 равен 2.5 = (2 +3) / 2,						а ранг
значения 11 равен 7 = (6 +7 +8) / 3.

Последовательность действий при проверке гипотезы однородности с помощью критерия Вилкоксона следующая:

1) составляем объединение выборок x1, x2 , ..., xn1 и y1, y2 , ..., yn2 ;

2)находим ранги объединенной выборки (обозначим ранги первой выборки r1, r2 , ..., rn1 , а ранги второй — s1, s2 , ..., sn2 );

3)вычисляем наблюдаемое значение статистики Вилкоксона

K = s1 + s2 +... + sn2 ,

равную сумме рангов второй выборки.

Если распределение второй выборки сдвинуто вправо относительно пер-

вой

(альтернативная

гипотеза

H1 : F1(x) < F2 (x),

то статистика

K будет

принимать значения,

большие критического

Kкр = K (n1, n2; α), и гипотеза

отвергается в пользу альтернативы H1.

Если

рассматривается

альтернатива

H1 : F1(x) ≠ F2 (x), то

гипотеза

отвергается,

если

выполняется

одно

из

двух

условий:

≥ K

, n

;

или K

= n

+ n +1)

;

= K n

− K n ,n

набл

кр

набл

Пример 2. В биохимическом исследовании, проведенном методом меченных атомов, по результатам изучения 7 препаратов опытной группы получены следующие показания счетчика импульсов (в импульсах в минуту): 340, 343, 322, 332, 320, 313, 304. Результаты контрольной группы: 318, 321, 318, 301, 312.

Можно ли считать, что полученные значения опытной и контрольной групп различны (α = 0.05) ?

Решение. Сформулируем основную и альтернативную гипотезы.

H0 : F1(x) = F2 (x) — выборки однородны; различия в результатах опытной и контрольной групп можно отнести на счет случайных воздействий.

H1 : F1(x) ≠ F2 (x) — выборки извлечены из генеральных совокупно-

стей с разными распределениями; различие между контрольной и опытной группами существенно.

Объединим выборки и расположим полученные данные в порядке воз-

растания: 301, 304, 312, 313, 318, 318, 320, 321, 322, 332, 340, 343 — здесь

подчеркнуты элементы второй выборки (контрольной группы). Занумеровав все элементы в порядке возрастания, получим ранговую последовательность: 1, 2, 3, 4, 5.5, 5.5, 7, 8, 9,10,11,12 — подчеркнуты ранги контрольной группы.

Наблюдаемое значение статистики Вилкоксона равно

Kнабл =1 +3 +5.5 +5.5 +8 = 23.

Критическая область				является				двусторонней, ее правая граница при
α = 0.1 (табл. 6.10)
K		= K				;	α	= K (7, 5; 0.05) = 44 ,
K		= K	n , n			;	2	= K (7, 5; 0.05) = 44 ,
	пр			1	2		2

левая граница

Kлев = n2 (n2 + n1 +1)− Kпр =5 14 −44 = 26 .

Наблюдаемое значение попадает в критическую область: Kнабл < Kлев,

поэтому основная гипотеза отвергается в пользу альтернативной.

Итак, на уровне значимости 0.1 можно утверждать, что разница между показаниями счетчика в контрольной и опытной группах существенна.

					Таблица 6.10
Критические точки критерия Вилкоксона при					α = 0.05

n2			n1
n2	5	7		9	10
	5	7		9	10
5	36	44		51	54

7.КОРРЕЛЯЦИОННЫЙ И РЕГРЕССИОННЫЙ АНАЛИЗ

7.1.Основные задачи

В этом разделе мы рассмотрим виды и формы связей, различаемые в статистике. Связи между различными явлениями и их признаками можно разделить на два типа: функциональные и стохастические. Если два признака X и Y связаны функциональной зависимостью, то по значению одного из них можно точно указать значение другого. Например, зная рост X в сантиметрах наугад взятого человека, можно указать его рост Y в метрах. Стохастическая связь проявляется не в каждом отдельном случае, а в среднем при большом числе наблюдений. Если X — рост наугад взятого человека в сантиметрах, то Y = X −100 — вес в килограммах. Изучение такого вида связей — предмет исследования корреляционного и регрессионного анализа. При этом независимый признак X называется фактором, а зависимый Y — откликом.

Основные задачи корреляционного анализа:

1)выяснить, есть ли связь между двумя признаками;

2)измерить силу этой связи;

3)отобрать факторы, оказывающие наиболее сильное влияние на отклик. В задачи регрессионного анализа входят следующие:

1)описание формы зависимости;

2)нахождение коэффициентов уравнения, описывающего зависимость, и оценка их точности;

3)оценка качества полученной зависимости (адекватность модели).

7.2. Коэффициент корреляции Пирсона

Коэффициент корреляции Пирсона rXY измеряет тесноту линейной связи между переменными X и Y

rXY = M ((X −σmXσ)(Y −my ))

X Y

и обладает следующими свойствами.

Для любых переменных X и Y его абсолютная величина не превосходит единицы: −1 ≤ rXY ≤1.

Значение коэффициента корреляции равно +1 или –1 тогда и только тогда, когда между переменными X и Y существует линейная функциональная связь Y = a +bX .

Если переменные X и Y независимы, то rXY = 0. Если rXY = 0, то пере-

менные X и Y называются некоррелированными. Некоррелированность переменных означает отсутствие между ними линейной стохастической зависимости, но не означает отсутствия связи вообще.

Точечной оценкой коэффициента корреляции rXY является выборочный коэффициент корреляции rˆXY , который можно рассчитывать по формулам:

∑xi yi − x y

rˆ

;

(7.1)

sX sY

∑xi yi

−nx y

rˆXY

i =1

(7.2)

−nx

−ny

∑xi

∑yi

i =1

где (xi , yi ), i =1, 2, ..., n — независимая выборка объема n из двумерной ге-

неральной совокупности;

x, y — средние арифметические значения (выборочные средние) переменных X и Y;

sX , sY — выборочные средние квадратические отклонения переменных

X и Y.

Коэффициент корреляции rˆ , рассчитанный по выборке, является значе-

нием случайной величины ˆ . С увеличением числа наблюдений (свыше 500)

распределение величины ˆ стремится к нормальному. С уменьшением числа

наблюдений надежность этой оценки падает. Поэтому после вычисления

оценки rˆ встает вопрос о значимости коэффициента корреляции. Значимость коэффициента корреляции проверяется с помощью статисти-

ки, имеющей распределение Стьюдента (табл. 7.1).

		Таблица 7.1
	Проверка значимости коэффициента корреляции Пирсона

	Гипотеза	H0 : rXY = 0
	Предположение	Двумерная нормальная генеральная
		совокупность
	Оценки по выборке	ˆ
		x; y; sX ; sY ; rXY
	Статистика К	ˆ
	Статистика К	RXY n −2
		RXY n −2
		ˆ 2
		1− RXY
	Распределение статистики К	Стьюдента T(n−2)

Пример 1. Проводится изучение зависимости массы монеты Y в граммах от времени обращения X (число лет обращения).

По результатам десяти наблюдений (табл. 7.2) выяснить, значима ли корреляция между массой монеты и временем ее обращения.

Решение. Рассчитаем по выборке объема n =10 (табл. 7.2) оценки сред-

них x = mˆ		X	, y = mˆ					и дисперсий s2 = σˆ 2						, s		2	= σˆ	2	:
		X			Y						X		X		Y			Y
										Данные примера 1										Таблица 7.2
										Данные примера 1

i	1			2			3		4		5	6					7		8	9	10
x (лет)	5			9			14		17		23	31					35		42	46	50
i
yi (г)	2.82			2.85	2.8				2.8		2.79	2.78				2.77			2.79	2.75	2.72
					1			n				1	n
				x =	1			∑xi = 27.2; y =				1	∑yi = 2.787;
				x =				∑xi = 27.2; y =					∑yi = 2.787;
						n i=1						n i=1
							1			n
				s2X	=		1			∑(xi − x)2 = 254.178;							sY2 = 0.001.
				s2X	=					∑(xi − x)2 = 254.178;							sY2 = 0.001.
								n −1 i=1

По формуле (7.1) получим значение выборочного коэффициента корреляции rˆXY = −0.792 — можно предполагать достаточно сильную линейную

отрицательную зависимость между массой монеты и возрастом ее обращения. Так как выборка малого объема, проверим значимость коэффициента корреляции.

Основная гипотеза H0 состоит в том, что коэффициент корреляции rXY не значим H0 : rXY = 0, т.е. между переменными X и Y нет линейной связи. Альтернативная гипотеза H1 : rXY < 0 — коэффициент корреляции значим,

переменные X и Y связаны отрицательной линейной зависимостью.

Наблюдаемое значение статистики K (табл. 5.1) равно

ˆ	n	−	2	=	−	0.792			10	−	2	= −	0.792	8	= −3.668.
Kíàáë = rXY		2
1	−ˆ					1	−	−			2		1−0.627
	rXY							( 0.792 )
Зададим уровень значимости α = 0.01												и определим границу критиче-

ской области по таблице распределения Стьюдента. По виду альтернативной

гипотезы заключаем,	что	критическая область является левосторонней:
(−∞; −Kêð ]. Значение	Kкр	находим по таблице распределения Стьюдента
(приложение 3):

Kкр = t(n −2; α) = t(10 −2; 0.01) = t(8; 0.01) = 2.9.

r1, r2 , ..., rn

s1, s2 , ..., sn.

7.3. Ранговая корреляция

(−∞; −2.9],

Наблюдаемое

значение попадает в критическую область поэтому основную гипотезу следует отвергнуть в пользу

альтернативы: связь между переменными X и Y значима.

Данные наблюдений на уровне значимости 0.01 говорят о том, что масса монеты в среднем линейно убывает при увеличении возраста монеты.

Kнабл

= −3.668

При изучении психических и физических способностей человека часто используются испытания, в которых важно не значение измеренного признака, а взаимный порядок, в котором следуют результаты измерений. Например, нас интересует вопрос: зависит ли скорость реакции человека на световой сигнал (признак X) от скорости реакции на звуковой сигнал (признак Y)? Проведя n

наблюдений, мы получим выборку — множество пар чисел (xi , yi ). Нас интересуют не столько сами значения чисел xi и yi , сколько порядок их следо-

вания. Назовем рангом i-го наблюдения его порядковый номер в вариационном ряду. Так, для выборки из пяти наблюдений

3.83 2.98 3.96 4.18 3.06

соответствующая последовательность рангов имеет вид

3 1 4 5 2.

Если величина признаков X и Y нас не интересует, то от пар значений признаков (xi , yi ) можно перейти к парам их рангов (ri , si ). Чем теснее связаны признаки X и Y, тем в большей степени последовательность рангов

предопределяет последовательность Близость двух рядов рангов отражает величина

n	n
S = ∑di2	= ∑(ri − si )2.
i=1	i=1

Она принимает наименьшее возможное значение S = 0 тогда и только тогда, когда последовательности рангов полностью совпадают. Наибольшее

возможное значение S = 13 (n3 −n) величина S принимает, когда эти после-

довательности полностью противоположны. Поэтому в качестве меры монотонной зависимости признаков X и Y рассматривают коэффициент ранговой корреляции Спирмена:

r =1−

(7.3)

S	n3 −n

<<< < Предыдущая 1 2 3 4 5 6 7 89 / 139 10 11 12 13 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
11.05.201568.1 Кб308Тема 4 Структура управления организацией.doc
#
11.05.201553.86 Кб29Тема 5 Стиль руководства организацией.docx
#
11.05.201558.07 Кб39Тема 6 Управленческие решения.docx
#
24.08.201980.9 Кб12Темы практ. зан. и рефератов_гр.438_2012.doc
#
10.05.20156.24 Mб183теор.экспл.учебн.пособ.doc
#
11.05.20153.26 Mб196теория вероятностей.pdf
#
16.03.2016703.34 Кб56Теория вычисл. процессов_ЛР.pdf
#
11.05.201514.95 Кб18Теория Игр.docx
#
10.05.20153.65 Mб512Теория надежности.doc
#
10.05.2015174.08 Кб38ТЕОРИЯ ПРЯМОУГОЛЬНОГО ВОЛНОВОДА.doc
#
11.05.2015346.6 Кб39Теория социальной работы.pdf