Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Южный Федеральный Университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Матметоды

.pdf

Скачиваний:

Добавлен:

13.02.2015

Размер:

318.7 Кб

Скачать

☆

<<< < Предыдущая 1 23 / 43 4 > Следующая >>>

строка	содержание				способ вычисления
1				zj	по выборке
2
2			zj X
4				S	по строке 1 и выборке
4		pjS			по формуле (1.1) и строке 3
3				zj X	по таблице (x) и строке 2
5			npj		по строке 4
6				nj	по выборке
7	(nj npj2)2				по строкам 5, 6
8		(nj npj)			по строкам 7, 5
		(nj npj)			по строкам 7, 5
			npj

Сумма последней, восьмой строки и есть значение статистики 2. Îíî ñðàâ- нивается с критической точкой распределения хи-квадрат с r 3 степенями свободы, где r - окончательное число групп.

Рассмотрим числовой пример, группировка для которого уже была проведена. Это данные о колебании руки оператора. Напомним, что в этой

выборке					= 7; 48: Границы первого и последнего интервалов
	X = 62; 45; S				= 7; 48: Границы первого и последнего интервалов
заменяем бесконечными. Составляем таблицу.

	1			zj	1	52,61	58,47	64,33	70,19	1
	2			zj	1					1
			zj X		1	-1,31	-0,53	0,25	1,03	1
				S	1					1
	4				0	0.090	0,210	0,280	0,270	0,150
	4			pjS		0.090	0,210	0,280	0,270	0,150
	3	zj X				0,090	0,300	0,580	0,850	1
	5		npj			9	21	28	27	15
	6			nj		7	19	39	22	13
	7	(nj npj2)2				4	4	121	25	4
	8		(nj npj)			0,444	0,190	4,321	0,926	0,267
			(nj npj)			0,444	0,190	4,321	0,926	0,267
			npj

Заметим, что строки, начиная с четвертой, не полны, поскольку интервалов на один меньше, чем их границ. Сумма последней строки 2 = 6; 149.

Число степеней свободы 5-3 = 2. Критическая точка по таблице - 5,99. Поэтому формально гипотезу о нормальном характере распределения следует отвергнуть. Однако следует иметь ввиду два обстоятельства - близость расчетного и критического значений, а также то, что группировка, используемая здесь, проведена с нарушением одного из двух основных принципов - имеются "перенаселенные"интервалы. Внимательное изучение таблицы показывает, что именно один из них дает самый существенный вклад в величину 2. Поэтому необходим повторный расчет, по окончательной

группировке из п. 4, который показывает, что гипотезу следует принять. С помощью критерия 2 можно проверять и ряд других гипотез, напри-

мер, гипотезу однородности, которая состоит в отсутствии существенных различий в поведении двух наблюдаемых величин. Рассмотрим эту задачу.

Пусть даны две выборки: X объема n è Y объема m. Основная гипотеза

состоит в том, что распределения двух наблюдаемых величин совпадают, т.е. фактически наблюдается одна величина. Для проверки объединим две

выборки в одну объема n + m, осуществим ее группировку и заполним таблицу, называемую таблицей сопряженности.

интервал

...

всего

число элементов X

...

число элементов Y

...

всего

n1 + m1

...

nr + mr

n + m

Затем рассчитываем

n(ni +i

m(ni +i

mi) 1!

2 = (n + m)

mi)

i=1

и сравниваем с критической точкой распределения хи-квадрат с r 1 степе-

нью свободы. Если соответствующее критическое значение не превзойдено, гипотезу об однородности можно принять.

Рассмотрим числовой пример. Группа студентов-филологов ( X) и группа студентов-математиков (Y ) получила следующие оценки при тестировании в баллах

	сумма баллов	10	11	12	13	14	15	16	17	18	Всего
	число X	3	4	2	7	9	11	8	5	1	50
	число Y	5	3	5	5	5	2	10	2	3	40

	всего	8	7	7	12	14	13	18	7	4	90
Расчеты показывают, что 2				=	90(1; 117 1)			=	10; 53. По таблице хи-

квадрат с 8 степенями свободы находим критическую точку 15,57. Таким образом, гипотезу о несущественном влиянии направления образования на результаты теста можно принять.

2.1Экспертные оценки.

Для установления наличия и степени согласованности мнений двух людей (экспертов) в задачах ранжирования (установления порядка по значимости) некоторых факторов используется коэффициент ранговой корреляции Спирмена, который можно рассматривать, как меру близости мнений одного эксперта к мнениям другого:

R(X; Y ) = 1	6	n	d2		TY :
R(X; Y ) = 1	n3 nPi TX			i	TY :
		=1		i

Этот коэффициент рассчитывается для пары экспертов X; Y . Здесь di- ðàç- ность рангов, присвоенных экспертами i-му фактору, n - число оцениваемых факторов, TX; TY вычисляются для каждого из экспертов X; Y по формуле

T = 12 X(t3j tj);

где сумма берется по всем группам связанных (равных) рангов у выбран- ного эксперта, при этом tj - число факторов с равными рангами, составляющих j-ю группу. Если у эксперта связанных рангов нет, то для него T = 0.

Чем больше R, тем сильнее согласованы мнения экспертов.

Тех экспертов, мнения которых наиболее согласованы, можно объединить в группу, и рассматривать эту группу в качестве "коллективного эксперта". Суммы рангов всех экспертов группы для данного фактора называется его коллективным рангом. Ранги, присвоенные факторам в соответствии с возрастанием их коллективных рангов, называются групповыми рангами.

Рассмотрим пример с оцениванием студентами состояния общественного транспорта. У первого, второго и пятого экспертов нет связанных рангов,

а значит T1 = T2 = T5	= 0. У третьего имеется одна группа связанных
факторов, содержащая t1	= 2 фактора (ранги по 6,5). Т.о. T3	3= (23 2)=2 =
3. У четвертого t1 = 5 связанных факторов, поэтому T4 = (5		5)=2 = 60:

Если бы у эксперта имелось две группы связанных факторов, содержащих,

скажем, 3 и 2 фактора, то T = ((33 3) + (23 2))=2 =			15 для такого
эксперта. Произведем, например, расчет
		R(1; 2) = 1 6
	(1 2)2	+(3 1)2+(5 3)2+(7 4)2+(6 7)2+(4 6)2+(2 5)2	0; 41:
		73 7 0 0

Остальные коэффициенты вычисляются аналогично. Заполним таблицу.

Коэффициенты ранговой корреляции в задаче о студентах и транспорте

	Эксперты	1	2	3	4	5
	1	1	0,41	0,75	0,78	0,64
	2	-	1	0,24	0,22	0,61
	3	-	-	1	0,40	0,43
	4	-	-	-	1	0,56
	5	-	-	-	-	1

Нижняя часть таблицы не заполнена, т.к. R(i; j) =						R(j; i) äëÿ âñåõ ïàð èí-

дексов, т.е. таблица симметрична. Объединим в группу первого и четвертого эксперта, т.к. максимальная согласованность мнений наблюдается именно между ними. Можно было бы к ним добавить третьего, но он, несмотря на его хорошую согласованность с первым, имеет не очень хорошее согласование с четвертым. Оставшаяся часть таблицы содержит максимальное

число R(2; 5) - можно сформировать еще одну группу, состоящую из второго

èпятого экспертов. Итак,

1-я группа: 1, 4 эксперты;

2-я группа: 2, 5 эксперты;

3-я группа - 3-й эксперт. Коллективные ранги в группах:

группы			ô à ê ò î ð û
	÷	ç	î	ä	ê	c	ö
1	2	8	10	12	11	9	4
2	5	3	8	8	14	12	6
3	2	2	6,5	6,5	5	2	4

Заполним таблицу групповых рангов:

группы			ô à ê ò î ð û
	÷	ç	î	ä	ê	c	ö

1	1	3	5	7	6	4	2
2	2	1	4,5	4,5	7	6	3
3	2	2	6,5	6,5	5	2	4

Теперь, считая каждую группу новым (групповым) экспертом, снова можно вычислить числа Ti; i = 1; 2; 3 уже для групп и, например, оценить согласованность мнений разных групп. Заметим, наконец, что значимость отличия R от нуля можно проверять, пользуясь критерием для коэффициента кор-

реляции.

2.2Регрессионный анализ.

Если имеются основания считать, что случайная величина X зависит от другой случайной величины Y (например, коэффициент корреляции между

ними значимо отличается от нуля), то можно попытаться восстановить формулу, выражающую эту зависимость. Естественно, речь может идти только о приближенной формуле из какого-то параметрического класса формул, обычно о линейной зависимости вида

Y = X		+ ; X = kY			+ b:	(2.2)
Параметры ; ; k; b подбираются, как правило, из условий
		n
	Xi			2
S( ; )	=	(Yi Xi )			! ;	(2.3)
S( ; )	=				min
		=1
è		n
		n
	Xi		2
T (k; b)	=	(Xi kYi b)			min	(2.4)
T (k; b)	=	(Xi kYi b)			! k;b	(2.4)
		=1

Такой метод подбора коэффициентов называют методом наименьших квадратов. Найденные из условий (2.3 , 2.4) уравнения (2.2) могут быть записаны так:

	SY		SX
Y =	SX	(X X) + Y ; X =	SY	(Y Y ) + X;
где - выборочный коэффициент корреляции, SX; SY					- корни квадратные

из выборочных дисперсий X; Y соответственно. Эти два уравнения называются уравнениями прямых регрессии.

Если мы хотим увидеть характер зависимости между X и Y наглядно, имеет смысл построить так называемое поле корреляции. Для этого осуществим группировку выборки X на r групп A1; :::; Ar, а выборку Y разобьем на s групп B1; :::; Bs. Обозначим через i;j прямоугольник, проекции ко- торого на оси Ox и Oy совпадают с Ai è Bj соответственно. Двумерный вектор с координатами X; Y попадает, таким образом, в i;j тогда и только

тогда, когда X 2 Ai è Y		2 Bj. Пусть n1; :::; nr					количества элементов X в
A1; :::; Ar, à m1; :::; ms - элементов Y					â B1; :::; Bs соответственно. Определим
групповые средние				Pf k::Yk2Big
			1
X(j)	=		n1i			Xk;	j = 1; :::; s:
Y(i)	=			k X A		Yk;	i = 1; :::; r;
				P	ломаные с узлами в точках с коорди-
Далее построим на плоскости				P	ломаные с узлами в точках с коорди-
			mj	f	k2 jg
~				Oxy	~		~
~					~		~
натами (Xi; Y(i)); i = 1; :::; r è (X(j); Yj);						j = 1; :::; s. Напомним, что Xi -
		~		- середина Bj. Построенные ломаные назы-
это середина отрезка Ai, à Yj				- середина Bj. Построенные ломаные назы-

вают эмпирическими линиями регрессии, и их можно рассматривать как приближенные графики зависимостей Y от X и X от Y .

Результаты этого раздела позволяют приближенно предсказывать, какое значение будет принимать одна из величин, если значение другой нам известно. Конечно же, речь идет не о точном значении, а лишь об оценке.

2.3Дисперсионный анализ.

Рассмотрим задачу выявления и оценки степени влияния некоторого фактора A на изменчивость случайной величины X. Требуется выяснить, являет-

ся ли влияние фактора на эту величину существенным. Фактор A при этом обычно считается нечисловым категоризованным или числовым, принимающим небольшое число значений. Его градации принято называть уровнями.

Пусть нам заранее известна дисперсия D0X величины X, и мы имеем выборку значений X под действием фактора A. Очевидно, что если A не влияет на изменчивость, то вычисленная по выборке дисперсия D íå

значимо отличается от D0X. Åñëè æå DX > D0X; то следует признать существенный характер влияния. Вообще говоря,

DX = D0X + DAX;

где через DAX обозначена часть дисперсии, объясняемая влиянием фактора A. Если же исследуемых факторов несколько, то

DX = D0X + DAX + DBX + DA;BX + :::

Идея оценки влияния факторов основана на изучении доли дисперсии, которая объясняется через изучаемый фактор.

Основные предположения, необходимые для применения описываемого далее аппарата:

1.выборки нормально распределены;

2.изучаемый фактор влияет на среднее значение X;

3.дисперсии X в каждой из градаций факторов однородны, т.е. их отличия незначимы.

Основная задача при решении общей проблемы дисперсионного анализа - выделить небольшое число факторов, существенно влияющих на изменчи- вость наблюдаемой величины, а затем оценить влияние каждого из них. Первый этап задачи - оценка общего влияния группы факторов, второй - частного (парциального) влияния каждого из факторов группы.

Выделяются следующие разновидности дисперсионного анализа: по числу факторов влияния; по количеству градаций (уровней) изменения изуча- емых факторов, например, 3- или 2-х уровневый; по наличию или отсутствию повторных (параллельных) испытаний. Различают также полный и дробный, т.е. содержащий пропущенные уровни при испытаниях, дисперсионный анализ.

Рассмотрим подробнее полный однофакторный дисперсионный анализ с параллельными испытаниями. Исходные данные собраны в таблицу. Пред-

полагается, что на каждом из m уровней фактора поставлено по n параллельных испытаний, в которых наблюдалось значение величины X. Ее зна- чения, наблюденные в i-м испытании в предположении, что фактор находился на j-м уровне, обозначены xi;j.

Испытание	Уровни
	A1	...	Am
1	x1;1	...	x1;m
...	...	...	...
n	xn;1	...	xn;m
средние	x1	...	xm

Объем выборки здесь, таким образом, равен N = nm. Обозначим

		1		m	1		n m
	=		jX		xj =		XX
X							xi;j:
		m		=1		nm
							i=1 j=1

Нетрудно заметить, что

m n		2	m n	2	m
XX			XX		2
	(xi;j X)			(xi;j xj) + n	Xj
			=		(xj X) :
j=1 i=1			j=1 i=1		=1

Обозначим левую часть этого равенства через Q, двойную сумму в правой части через Q0, а второе слагаемое справа без множителя n через QA. Ïðè ýòîì Q интерпретируется как общая изменчивость X, Q0 как сумма измен-

чивостей внутри уровней, а QA как изменчивость X между уровнями, т.е.

при переходе от уровня к уровню. Таким образом, можно записать

Q =

xi;j2

;

xi;j

i=1

j=1

j m

P P

j=1

i=1 xi;j

j=1 ( i=1 xi;j)

;

QA =

i=1 xi;j)

i=1 xi;j

j=1

(

j=1

Определим

DA =	QA		; D0 =	Q0	; F =	nDA + D0	:
	N			N 1
		1				D0

Теперь сравним рассчитанное по выборочным данным значение F с крити- ческой точкой распределения Фишера с m 1; m(n 1) степенями свободы. Если критическое значение не превзойдено, следует принять гипотезу об отсутствии значимого влияния фактора A на величину X.

Пример. Сравнить три метода преподавания (использование различного наглядного материала для обучения). Результаты тестирования в трех группах учеников по 15 человек в баллах, а также некоторые промежуточные расчетные характеристики и их обозначения приводятся в таблице.

Заметим, что в этом примере N = 45.

Вычислим по таблице z = (S1 + S2 + S3)=15 = 7539; 0: Теперь мы готовы привести основные результаты дисперсионного анализа:

Факторная вариативность QA = z Nt2 = 89; 2; DA = 2; 03.

Сравнение трех методов преподавания

	учащийся	метод 1	метод 2	метод 3
	1	9	15	18
	2	11	16	14
	3	10	15	17
	4	12	10	9
	5	7	13	14
	6	11	14	17
	7	12	15	16
	8	10	7	15
	9	13	13	16
	10	11	15	8
	11	13	15	14
	12	11	14	10
	13	10	11	16
	14	12	15	15
	15	13	10	17	всего

	суммы Sj	165	198	216	t = 579
	суммы квадратов	1853	2706	3242	u = 7801
	S2	27225	39204	46656	v = 113085
	j	27225	39204	46656
Случайная вариативность Q0			= u z	= 262; 0; D0 = 5; 95.

	Общая вариативность Q = u
	Значение критерия F = 6; 12.

t2 = 351; 2.

По таблице распределения Фишера с 2, 42 степенями свободы, находим критическую точку уровня 0,01. Она равна 5,15. Поскольку расчетное значе- ние критерия больше, то следует признать существенность влияния метода применения наглядных материалов на успеваемость учащихся. Более того,

определяя долю QA â Q, видим, что примерно треть изменчивости баллов тестирования может быть объяснена через этот фактор.

2.4Проблема отбора наиболее информативных показателей.

Пусть при изучении n объектов у каждого из них наблюдается большое количество p показателей. Рассмотрим задачу уменьшения числа p с наимень-

шими потерями информации, содержащихся в наших наблюдениях. При этом исследователем могут ставиться следующие цели:

1.большая наглядность (визуализация) данных;

2.лаконизм получаемой модели, обозримость и простота зависимостей;

3. сжатие объемов хранимой информации о наблюдениях.

Конечно же, возможны иные цели или комбинация перечисленных. Меньшее количество признаков q (как правило, q p ) может выбираться из

уже имеющихся p или строиться вновь, как комбинации наблюдаемых по-

казателей. Возможны разные варианты требований к новым показателям, например:

наибольшая информативность (в разных смыслах);

взаимная независимость показателей или их некоррелированность;

наименьшее искажение геометрической структуры данных и т.д.

Âзависимости от вида требований задается критерий оптимальности для предлагаемой системы признаков и строится алгоритм оптимального построения. При этом имеется три основных типа предпосылок к успешному решению поставленной задачи:

1.дублирование информации (сильная связь между показателями);

2.неинформативность некоторых из показателей (их незначительная изменчивость при переходе от объекта к объекту);

3.возможность агрегирования, т.е. объединения нескольких показателей в один без существенного ущерба для информативности.

Поставим задачу снижения размерности формально. Пусть x(1); :::x(p) - íà- блюдаемые показатели, X = (x(1); :::; x(p)); Z = Z(X) - q-мерная век-

торная функция, q p, Z(X) = (Z(1)(X); :::; Z(q)(X)), Iq(Z(X)) - мера информативности или критерий оптимальности. Этот критерий определяется сущностью решаемой задачи. Варианты I будут приведены ниже. Пред-

положим также, что задан класс F допустимых преобразований Z. Тогда

задача ставится так: построить такое ~

Z из класса F , ÷òî

Iq(Z(X)) = max Iq(Z(X)):

Z2F

Тот или иной выбор I; F приводит к методу главных компонент, факторно-

му анализу, методу экстремальной группировки признаков, многомерному шкалированию, дисперсионному или регрессионному анализу. Далее следует краткий обзор этих методов, некоторые из которых подробнее рассмотрены в последующих разделах.

2.4.1Метод главных компонент.

Здесь F - класс линейных преобразований следующего вида:

Z(j) = cj;k(x(k) x(k)); j = 1; :::; q;

k=1

причем

p	p
X	X
cj:k2 = 1; j = 1; :::; q;	cj;kci;k = 0; j; k = 1; ::; q; j 6= k:
k=1	k=1

Критерием оптимальности будет

Pq DZ(j)

j=1

Iq(Z) = Ppj=1 Dx(j) :

Итак, мы ищем такую нормированную комбинацию исходных показателей, изменчивость которой которая объясняет максимально возможную долю изменчивости всего набора исходных показателей.

2.4.2Экстремальная группировка признаков.

Поставим задачу разбить x(1); :::; x(p) на заданное число групп S1; :::; Sq òàê,

чтобы внутри одной группы показатели были коррелированы относительно сильно, а между группами наблюдалась бы относительно слабая корреляция. После того, как это проделано, каждую группу заменим одним

показателем Z.

Здесь F - класс нормированных линейных преобразований, выбираемых так, чтобы DZ = 1,

	q
	X X
Iq(Z; S) =	2(x(k); Z(j));
	j=1 k2Sj

ãäå (:; :) - коэффициент корреляции. При этом набор групп S также мо-

жет подбираться. Простейший пример такого метода - группировка выборки (см. соответствующий раздел).

2.4.3Многомерное шкалирование.

Предположим, что результатами наблюдений являются не состояния какихто объектов, а характеристики их попарной близости i;j или расстояния

между ними di;j. Такая ситуация наблюдается, когда мы изучаем опросы,

анкетирование или экспертные оценки. Задача состоит в наглядном изображении результатов в пространстве небольшого количества измерений с наименьшим геометрическим искажением структуры данных. Определим

n	n
Xi	X	^
(Z) =		^	:
(Z) =	di;j	j di;j(Z) di;j j	:

=1 j=1

Здесь ^

di;j - расстояния между объектами в новом пространстве более низкой размерности, а числа ; выбираются исследователем ( < 0).

<<< < Предыдущая 1 23 / 43 4 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
23.09.2019195.07 Кб8Материалы по вниманию и памяти.doc
#
10.11.201869.56 Кб15Материалы по древнерусской литературе.docx
#
28.03.201521.55 Кб36Материальная культура Дагестана XIX.docx
#
13.02.201526.28 Кб14Материк АФРИКА орография+проектные 1-2.docx
#
13.02.20153.74 Mб23матмет в схемитабл.pdf
#
13.02.2015318.7 Кб22Матметоды.pdf
#
12.03.2016731.77 Кб51Машков ДП.pdf
#
13.02.2015665.09 Кб36МГСН_2.07-01.doc
#
28.09.2019155.65 Кб14МДР _2013.doc
#
08.05.201976.95 Кб13Медиакультура семинар 1.docx
#
02.09.20192.24 Mб76Медиаобразование и медиаграмотность (2004).doc