Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный экономический университет (бывш. ФИНЭК, ИНЖЭКОН)

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

УМК Б ОГД 1 МатСтат 3 УЧПОС Воронов И.А

.pdf

Скачиваний:

Добавлен:

02.04.2015

Размер:

3.01 Mб

Скачать

☆

<<< < Предыдущая 1 2 34 / 114 5 6 7 8 9 10 11 > Следующая >>>

Распределение случайно изменяющихся величин

Формула закона нормального распределения

		1			( xi	M ) 2
f ( xi	)	1		e	2 SD 2		,

		SD	2
		SD	2

где: f(xi) – высота подъема кривой (плотность вероятности для значения xi); е – основание натурального логарифма (2,718); π – число «пи» (3,14159); М – среднее арифметическое; SD – стандартное отклонение.

Знание формы распределения, в частности нормального, позволяет сделать правильный выбор критериев сравнения выборок. В случае нормального распределения можно использовать параметрические критерии. В иных случаях – непараметрические. Форма распределения определяется по величинам эксцесса (kurtosis) и асимметрии (skewness). Последние должны быть в диапазоне от – 1 до + 1 при точных вычислениях и от – 2 до + 2 – при вычислениях, не требующих высокой точности. А так же по Z-критерию Колмогорова-Смирнова – если он определен на уровне значимости p > 0,05, то распределение не отличается от нормального.

Параметрические критерии

Параметрические методы обладают высокой чувствительностью. К ним относятся критерии t-Стьюдента и F-Фишера (ANOVA).

Условия применения параметрических методов: 1) соответствие распределения значений в генеральной выборке нормальному закону; 2) достаточно большая выборка, чтобы судить о законе распределения; 3) выполнение требования о гомогенности дисперсии при сравнении средних значений для независимых выборок; 4) наличие или отсутствие в выборке выбросов (экстремально больших или экстремально малых значений).

ПРИМЕНЕНИЕ t-КРИТЕРИЯ

Для вычисления уровня статистической достоверности различия между двумя средними2, в случае, если эти значения измерены в интервальной шкале или шкале отношений, используется t-критерий. Существует три типа t-критерия: для одной выборки, для независимых и зависимых выборок.

Критерий t-Стьюдента для одной выборки

где ошибка среднего

Критерий t-Стьюдента для независимых выборок (примерный)

M 2

M 1

n2 2 .

m 2

Критерий t-Стьюдента для независимых выборок (точный) для выбо-

рок разных объемов

M 2

1) 2

Критерий t-Стьюдента для зависимых выборок

M d

n 1.

Чтобы определить величину t, потребуются формулы для вычисления SS – сумм квадратов, δ2 – дисперсии, SD – стандартного отклонения и df – степеней свободы (см. выше):

		2 SS
SS	(xi M )2 ,	2 SS		,	SD	SS	.
						SS
			n 1
						n 1
						n 1

Задача 2.20 (вариант с одной выборкой). Выделяются ли ученики с высо-

ким осенним СБ из всей массы учеников?

Вначале вычисляем среднее арифметическое показателя Х5, А = 4,418 После этого формируем матрицу для учеников с высоким осенним СБ и

вычисляем среднее арифметическое M, отклонения D, квадраты отклонений D2, сумму квадратов отклонений SS, дисперсию δ2, стандартное отклонение SD и ошибку среднего m.

Затем определяем t-критерий Стьюдента и сравниваем его с табличным.

2Также говорят: для определения того, является ли различие в распределении значений между двумя группами случайным или статистически значимым.

Номер учащихся с	СБ осенний	D	D2
хорошими знаниями
2	4,6	–0,022	0,0005
3	4,7	0,078	0,0060
4	4,2	–0,422	0,1783
5	5,0	0,378	0,1427
6	3,7	–0,922	0,8505
10	4,9	0,278	0,0772
11	5,0	0,378	0,1427
13	4,6	–0,022	0,0005
16	4,9	0,278	0,0772
	М = 4,622	ΣD = 0,000	SS = 1,4756
n = 9			δ2 = 0,1844
df = 8			SD = 0,4295
			m = 0,1432

t	M A	4,622 4,418	1,429.

	m	0,143
	m	0,143

Обращаясь к табл. П 3.4 и имея df = 8, а уровень значимости p = 0,05, мы получаем критическое значение 2,306, которое выше рассчитанного нами.

Вывод. Средние баллы тех, кто занимается лучше, статистически значимо не отличаются от СБ всей выборки (от ожидаемого среднего значения).

Задача 2.21 (вариант с независимыми выборками). Имеют ли учащиеся с

высоким уровнем знаний более высокие осенние СБ, чем учащиеся, которые занимаются хуже? Для решения задачи необходимо сформировать матрицы для учеников с высоким осенним СБ и для учеников с низким осенним СБ, затем вычислить для каждой из выборок среднее арифметическое M, отклонения D, квадраты отклонений D2, сумму квадратов отклонений SS, дисперсию δ2, стандартное отклонение SD и ошибку среднего m. После чего определить t-крите- рий Стьюдента и сравнить его с табличным. Матрицу для учеников с высоким осенним СБ мы уже обработали в примере выше, осталось повторить аналогичные вычисления для матрицы для учеников с низким осенним СБ.

Номер учащихся	СБ осенний	D	D2
со слабыми знаниями
1	3,9	–0,375	0,1406
7	3,7	–0,475	0,2256
8	4,4	0,225	0,0506
9	4,6	0,425	0,1806
12	4,0	–0,175	0,0306
14	4,2	0,025	0,0006
15	4,0	–0,175	0,0306
17	4,7	0,525	0,2756
n = 9	М = 4,175	ΣD = 0,000	SS = 0,9350
df = 8			δ2 = 0,1336
			SD = 0,3655
df = 9 + 8 – 2 = 15			m = 0,1292

По формуле для вычисления примерного критерия t-Стьюдента для независимых выборок получаем:

t	M		2	M1	4,622	4,175	2,318 .


		m22		m12	0,1432 2	0,1292 2
		m22		m12	0,1432 2	0,1292 2

По формуле для вычисления точного критерия t-Стьюдента для незави-

симых выборок разных объемов получаем

t			M 2	M1					4,622	4,188				2,317


				1) 22 1
	(n1 1) 12		(n2	1) 22 1		1		(9 1)0,1844 (8		1)0,1086 1		1
								9 8 2			9		8
	n1	n2 2			n1		n2	9 8 2			9		8

Обращаясь к табл. П 3.4 и имея df = 15, а уровень значимости р = 0,05, мы выбираем критическое значение 2,131. Полученная нами величина t = 2,317 превышает 2,131 и может считаться статистически значимой на уровне 0,05. Поэтому мы заключаем, что средние баллы тех, кто занимается лучше, статистически значимо отличаются от СБ тех, кто занимается хуже.

t-критерий для зависимых выборок (для повторных измерений), как правило, используется в тех случаях, когда: 1) до и после некоторого воздействия анализируются пары результатов от каждого человека или 2) подбираются пары испытуемых, идентичных по таким характеристикам, как возраст, пол, интеллект или уровень выполнения задания. В отличие от t-критерия для независимых выборок, когда количественная переменная (СБ) разбита на группы с помощью двух уровней категориальной переменной (знания), t-критерий для зависимых выборок оценивает разность (D) между двумя количественными измерениями.

Задача 2.22 (вариант с зависимыми выборками). Отличается ли весенний СБ от осеннего СБ у учащихся с высоким уровнем знаний?

X9	X5	X6
Номер учащихся	Осенний СБ	Осенний СБ	D = X5 – X6	D2
с хорошими знаниями
2	4,6	4,0	0,600	0,360
3	4,7	5,0	–0,300	0,090
4	4,2	4,0	0,200	0,040
5	5,0	4,9	0,100	0,010
6	3,7	3,9	–0,200	0,040
10	4,9	5,0	–0,100	0,010
11	5,0	5,0	0,000	0,000
13	4,6	3,7	0,900	0,810
16	4,9	4,8	0,100	0,010
			Мd = 0,144	SS = 1,370
n = 9				δ2 = 0,171
df = 8				SD = 0,414
				m = 0,138

t	M d	0,144	1,047.

	md	0,138

Обращаясь к табл. П 3.4 и имея df = 8, а уровень значимости 0,05, выбираем критическое значение 2,306. Подсчитанная нами величина t = 1,047 не превышает 2,306 и не может считаться статистически значимой на уровне 0,05.

Вывод. Между весенними и осенними СБ отсутствуют статистически значимые различия.

Задача 2.23 (дополнительный пример). Какая методика эффективнее для

развития параметра А (кистевая динамометрия) путем вычисления уровня статистической достоверности различия между двумя средними по t-критерию Стьюдента на уровне значимости p < 0,05. Перед проведением эксперимента были сформированы две группы – контрольная и экспериментальная – по 12 испытуемых, которые прошли тест по параметру А.

КГ	68	65	71	69	64	62	62	67	59	61	65	64
ЭГ	67	68	72	65	67	61	64	61	62	69	60	65

По соответствующим формулам вычисляем степень свободы df и t-критерий для независимых выборок. Значения заносим в соответствующие ячейки таблицы:

		До	dfзавис=11	После
		эксперимента	tзавистаб=2,201	эксперимента
Контрольная группа			t11-12= 2,259
dfНЕзавис = 22	tНЕзавистаб=2,074	t11-21= 0,227		t12-22= 2,304
Экспериментальная группа			t21-22= 2,828

Выполняем расчеты, как это показано в таблице ниже (например, в про-

грамме MS Excel).

Обращаясь к табл. П 3.4 и имея df = 22 для независимых выборок, а уровень значимости 0,05, выбираем критическое значение 2,074. Рассчитанное в примере t11-21= 0,227 меньше табличного, поэтому: тесты по параметру А, выполненные перед проведением эксперимента, показали, что статистически достоверных различий между группами КГ и ЭГ по параметру А нет.

Вывод. В таких условиях МОЖНО начинать проводить эксперимент.

В течение двух недель испытуемые КГ тренировались по методике F, а экспериментальной – по методике G. Затем было проведено повторное тестирование параметра А:

КГ	72	68	71	69	67	64	63	67	61	62	64	65
ЭГ	69	70	74	72	69	65	68	70	64	72	68	68
По соответствующим				формулам			вычисляем			степень		свободы df и

t-критерий для зависимых выборок.

Подсчитанные нами величины t указывают, что после 2 недель тренировок в обеих группах произошли статистически достоверные изменения. Статистически достоверно (t12-22= 2,304) стали различаться и данные КГ и ЭГ, а показатель экспериментальной группы t21-22= 2,828 больше показателя контрольной

группы t11-12= 2,259.

Обращаясь к табл. П 3.4 и имея df = 22 для независимых и df = 22 для зависимых выборок, а уровень значимости 0,05, выбираем критические значения

– соответственно 2,074 для независимых и 2,201 для зависимых выборок. Вывод. Методика G экспериментальной группы оказалась более эффек-

тивной, чем методика F, которая применялась для развития параметра А в контрольной группе.

КГ	A1	D	D2	A2	D	D2	Dзавис	D2
1	68	3,3	10,6	72	5,9	35,0	–4	16
2	65	0,3	0,1	68	1,9	3,7	–3	9
3	71	6,3	39,1	71	4,9	24,2	0	0
4	69	4,3	18,1	69	2,9	8,5	0	0
5	64	–0,8	0,6	67	0,9	0,8	–3	9
6	62	–2,8	7,6	64	–2,1	4,3	–2	4
7	62	–2,8	7,6	63	–3,1	9,5	–1	1
8	67	2,3	5,1	67	0,9	0,8	0	0
9	59	–5,8	33,1	61	–5,1	25,8	–2	4
10	61	–3,8	14,1	62	–4,1	16,7	–1	1
11	65	0,3	0,1	64	–2,1	4,3	1	1
12	64	–0,8	0,6	65	–1,1	1,2	–1	1
	М = 64,8	0,0	SS = 136,3	М = 66,1	0,0	SS = 134,9	М = –1,3	SS = 46
			δ2 = 12,4			δ2 =12,3		δ2 = 4,2
			m = 1,0			m = 1,0		m = 0,6

ЭГ	A1	D	D2	A2	D	D2	Dзавис	D2
13	67	1,9	3,7	69	–0,1	0,0	–2	4
14	68	2,9	8,5	70	0,9	0,8	–2	4
15	72	6,9	47,8	74	4,9	24,2	–2	4
16	65	–0,1	0,0	72	2,9	8,5	–7	49
17	67	1,9	3,7	69	–0,1	0,0	–2	4
18	61	–4,1	16,7	65	–4,1	16,7	–4	16
19	64	–1,1	1,2	68	–1,1	1,2	–4	16
20	61	–4,1	16,7	70	0,9	0,8	–9	81
21	62	–3,1	9,5	64	–5,1	25,8	–2	4
22	69	3,9	15,3	72	2,9	8,5	–3	9
23	60	–5,1	25,8	68	–1,1	1,2	–8	64
24	65	–0,1	0,0	68	–1,1	1,2	–3	9
	М = 65,1	0,0	SS = 148,9	М = 69,1	0,0	SS = 88,9	М = –4,0	SS = 264
			δ2 =13,5			δ2 = 8,1		δ2 = 24,0
			m = 1,1			m = 0,8		m = 1,4

Дисперсионный анализ

Дисперсионный анализ (ANOVA) является одним из наиболее полезных и универсальных статистических методов, применяемых в психологии в настоящее время. Его можно использовать в экспериментах с межгрупповыми (bg) и внутригрупповыми (wg) планами и в экспериментах, которые имеют несколько уровней категориальной независимой переменной, но только одну количественную зависимую переменную. Дисперсионный анализ основан на F-распределении. Основные формулы для подсчета F приведены в таблице.

Формулы

Сумма квадратов

Число степе-

Средние

ней свободы

квадраты

Общая

SStotal

SSwg

SSbg

dftotal = N – 1

Total

Межгрупповая

SSbg

n(M j Group

MTotal )

dfbg = k – 1

Between Group

MSbg

dfbg

Внутригрупповая

dfwg=

Within Group

SSwg

SStotal

SSbg

(xi

M j Group )2

= dftotal – dfbg =

MSwg

dfwg

1 i 1

= N – k

Коэффициент

SSbg

F-отношение

MSbg

детерминации

Фишера

Fэ

SStotal

MS wg

Задача 2.24. Зависит

ли

количество

отработанных часов Х7

от уровня

удовлетворенности учебой Х8? Для проведения этого анализа нам потребуется данные Х7 всех испытуемых (n=17) расположить в 3 группы (k=3), каждая из которых будет соответствовать определенному уровню удовлетворенности учебой X8.

Вначале вычисляем общее средние арифметические Mtotal = 24 и группо-

вые Mgroup1 = 25, Mgroup2 = 24, Mgroup3. = 22.

Затем вычисляем отклонения D от Mtotal и квадраты отклонений D2.

Вычисляем общую сумму квадратов отклонений SStotal=1776.

По формуле вычисляем межгрупповую (Between Group) сумму квадратов отклонений

SSbg	n(M j Group	MTotal )2	6(25		24)	5(24	24) 6(22		24) 23.
Вычисляем внутригрупповую (Within Group) сумму квадратов отклонений
	SS wg	SStotal	SSbg		1776	23	1753 .
Определяем степени свободы: dfbg = k – 1 = 3 – 1 = 2;								dftotal = N – 1 = 16;
	dfwg = dftotal – dfbg = 16 – 2 = N – k = 17 – 3 = 14.
Теперь вычисляем межгрупповой (Between Group) средний квадрат:
		MSbg		SSbg	23	11.

				dfbg	2
				dfbg	2
И внутригрупповой (Within Group) средний квадрат:							MSwg	SSwg	1753	125.

								dfwg	14
								dfwg	14

X8	X7	D	D2		Mgroup
1	38	14	209
1	30	6		42
1	10	–14	184
1	30	6		42
1	30	6		42
1	10	–14	184		25
2	15	-9		73
2	10	–14	184
2	30	6		42
2	30	6		42
2	35	11	131		24
3	12	–12	134
3	35	11	131
3	20	–4		13
3	20	–4		13
3	35	11	131
3	10	–14	184		22
	Mtotal = 24		SStotal = 1776
			SSbg =	23
			SSwg = 1753
			R2 = 0,01
			dfbg =	2
			dfwg = 14
			MSbg=	11
			MSwg= 125
			F = 0,091
	p = 0,05		FT= 3,316

Наконец, вычисляем критерий Фишера

Fэ	MSbg		11	0,091.
	MSwg	125

После того как рассчитана величина F, необходимо обратиться к табл. П 3.5, в которой величины даны парами, где верхнее число соответствует критическому значению на уровне 0,05, а нижнее – критическому значению на уровне 0,01. Столбцы расположены в соответствии со степенями свободы между группами (dfbg), а строки – в соответствии со степенями свободы внутри групп (dfwg). Чтобы получить критическое значение для нашего анализа, двигайтесь вниз по столбцу для dfbg = 2, пока не достигнете строки, соответствующей dfwg = 14. Перед нами две величины, 3,74 и 6,51, Поскольку полученная нами величина F (0,091) не превышает 3,74, делаем вывод, что наши результаты статистически незначимы, т. е. между количеством отработанных часов и уровнем удовлетворенности учебой нет никакой связи.

Непараметрические критерии

Непараметрические методы обладают меньшей чувствительностью, чем параметрические. Применение рассмотренных в предыдущем разделе параметрических критериев было связано с целым рядом допущений. Например, сравнивая выборочные средние значения с помощью t-критерия, принимались следующие предположения: обе выборки являются случайными, т. е. каждая из них получена в результате независимых измерений; обе выборки получены из генеральных совокупностей, имеющих нормальное распределение; дисперсии генеральных совокупностей равны между собой.

На практике эти предположения строго никогда не выполняются, поэтому применение параметрических критериев всегда связано с опасностью ошибочных выводов, возникающей из-за нарушения принятых допущений. В математической статистике в этом случае применяются непараметрические методы, применение которых зависит от меньшего числа допущений.

Условия применения непараметрических методов: 1) несоответствие распределения значений в генеральной выборке нормальному закону;

2)	слишком малая выборка,	чтобы судить о законе распределения;
3)	невыполнение требования о	гомогенности дисперсии при сравнении

средних значений для независимых выборок; 4) наличие в выборке выбросов (экстремально больших или экстремально малых значений).

Важную группу непараметрических критериев составляют ранговые критерии. Ниже рассматриваются некоторые из ранговых критериев. Но предварительно следует познакомиться с понятием «ранг», играющим здесь ключевую роль.

Ранги

Ранжированная выборка получается, если расположить выборочные данные в порядке возрастания или убывания. Рангом выборочного значения называется порядковый номер этого значения. Ранг однозначно определен порядковым номером, если в выборке нет совпадающих значений. Если же они есть, то их ранги определяются как среднее арифметическое порядковых номеров совпадающих значений. Рангами могут быть представлены данные, выраженные в порядковой шкале, в том числе результаты наблюдения качественных признаков, когда невозможно измерить точное численное значение признака, но можно определить очередность значений по принципу «больше-меньше» (например, места в спортивных состязаниях, результаты судейства в баллах, оценки за экзамен и т. п.).

Пример. Получена выборка (n = 10), после ранжирования она выглядит следующим образом:

Номер	1	2	3	4	5	6	7	8	9	10
п/п
xi	12	14	15	15	15	16	18	19	19	22
R	1	2	4	4	4	6	7	8,5	8,5	10

Значения с порядковыми номерами 3, 4, 5 и 8, 9 совпали, поэтому их ранги R определяются как R = (3 + 4 + 5)/3 = 4 и R = (8 + 9)/2. Таким образом, ранг не обязательно будет целым числом.

Сравнение двух независимых выборок (критерий U-Манна-Уитни)

Считается, что критерий U-Манна-Уитни самый простой ранговый критерий (в отечественной литературе этот критерий иногда называют также критерий Вилкоксона для независимых выборок или критерием Уайта).

Применение критерия U-Манна-Уитни основано на единственном предположении: выборки получены из однотипных непрерывных распределений. При этом вид распределения генеральных совокупностей X и Y никак не оговаривается. Допущение о непрерывности распределений может быть принято, когда исследуемый признак имеет большое число возможных градаций. Гипотеза Но: F(x) = F(y) – это утверждение о том, что функции распределения обеих генеральных совокупностей одинаковы. Иначе говоря, обе выборки получены из одной и той же генеральной совокупности и эффект обработки отсутствует.

Поясним это более подробно. Поскольку функции распределения F(х) и F(у) равны, то, следовательно, равны и характеристики положения этих распределений (среднее значение и медиана). Поэтому, если эффект оценивается по различию средних арифметических двух выборок, то нулевую гипотезу можно было бы записать в виде Но: μx = μy. В этом случае критерий U-Манна-Уитни является непараметрическим аналогом t-критерия для независимых выборок.

Ниже рассматривается применение критерия U-Манна-Уитни на конкретном примере.

Задача 2.25 [17]. Результаты в беге на 100 м контрольной и экспериментальной групп студентов вузов на занятиях по физической культуре:

КГ	xi	12,6	12,3	11,8	12,1	12,8	13,2	13,8	12,8	12,6	13,0
ЭГ	yi	11,3	12,8	12,2	11,7	12,4	13,3	11,4	12,0	11,8	12,5

Номер		xi yi		Ri	Объем выборки для контрольной группы – nх = 10 и для
1	11,3		1
					экспериментальной – nу = 10.
2	11,4		2
					Проверим гипотезу Но: Мех = Меy против двусторонней
3	11,7		3
					альтернативы Н1: Мех=Mеу. Уровень значимости р = 0,05.
4		11,8		4,5
5		11,8		4,5	Порядок применения критерия U-Манна-Уитни:
6		12,0		6,5	1. Объединяем обе выборки в одну. Объем объединен-
7		12,0		6,5	ной выборки будет n = nх+ nу = 20.
8	12,1		8
					2. Ранжируем объединенную выборку, располагая дан-
9	12,2		9

10	12,3		10		ные в порядке возрастания. При этом отмечаем полужир-
11	12,4		11		ным шрифтом данные, относящиеся к одной из выборок
12	12,5		12		(все равно какой), например, КГ.
13
		12,6		13,5
					3. Находим ранги Ri объединенной выборки. Отмечаем
14		12,6		13,5
15		12,8		15,5	ранги, относящиеся, например, к КГ.
16		12,8		15,5	4. Суммируем по отдельности ранги, относящиеся к
17	13,0		17		первой и второй выборкам, т. е. находим суммы рангов:
18	13,2		18
					RX = ΣRXi = 127,5; RY = ΣRYi = 82,5.
19	13,3		19
					RX + RY = 127,5 + 82,5 = 210.
20	13,8		20

<<< < Предыдущая 1 2 34 / 114 5 6 7 8 9 10 11 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.04.2015218.62 Кб103УЗКиБ Практика 2.doc
#
01.04.20151.32 Mб59УЗКиБ Теория заоч.doc
#
01.04.2015222.81 Кб11УЗкр.docx
#
19.09.201970.14 Кб2УК 19-24.doc
#
19.09.201944.25 Кб3ук 37-42.docx
#
02.04.20153.01 Mб44УМК Б ОГД 1 МатСтат 3 УЧПОС Воронов И.А.pdf
#
16.12.2018567.81 Кб5УМК Банковское дело.doc
#
18.11.2019552.45 Кб76УМК вексельное право +.doc
#
14.03.2016720.9 Кб11УМК гражданское право.doc
#
17.12.20181.09 Mб6УМК лекции.doc
#
04.11.2018677.38 Кб12УМК ТГП 2007.doc