Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Российская таможенная академия

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

ЛЕКЦИЯ АФОНИНА 2. Тема 10. Однофакторный дисп анализ

.docx

Скачиваний:

Добавлен:

29.03.2016

Размер:

125.22 Кб

Скачать

☆

Тема: Дисперсионный анализ

Дисперсионный анализ – метод в математической статистике, направленный на поиск зависимостей в экспериментальных данных путём исследования значимости различий в средних значениях. В отличие от t-критерия позволяет сравнивать средние значения трёх и более групп. Разработан Р. Фишером для анализа результатов экспериментальных исследований.

Задачей дисперсионного анализа является изучение влияния одного или нескольких факторов на рассматриваемый признак.

В литературе также встречается обозначение ANOVA (от англ. ANalysis Of VAriance)

Типы дисперсионного анализа

Суть дисперсионного анализа сводится к изучению влияния одной или нескольких независимых переменных, обычно именуемых факторами, на зависимую переменную. Зависимые переменные представлены в виде шкал.

Независимые переменные отражают групповую принадлежность и могут иметь две или более градации (или уровня). Примерами независимой переменной X_i с двумя градациями могут служить пол (женский: X₁, мужской: X₂) или тип экспериментальной группы (контрольная: X₁, экспериментальная: X₂). Градации, соответствующие независимым выборкам объектов, называются межгрупповыми, а градации, соответствующие зависимым выборкам, – внутригрупповыми.

В зависимости от типа и количества переменных различают:

– однофакторный и многофакторный дисперсионный анализ (одна или несколько независимых переменных);

– одномерный и многомерный дисперсионный анализ (одна или несколько зависимых переменных);

– дисперсионный анализ с повторными измерениями (для зависимых выборок);

– дисперсионный анализ с постоянными факторами, случайными факторами, и смешанные модели с факторами обоих типов;

Однофакторный дисперсионный анализ используется в тех случаях, когда есть в распоряжении три или более независимые выборки, полученные из одной генеральной совокупности путем изменения какого-либо независимого фактора, для которого по каким-либо причинам нет количественных измерений.

Для этих выборок предполагают, что они имеют разные выборочные средние и одинаковые выборочные дисперсии. Поэтому необходимо ответить на вопрос, оказал ли этот фактор существенное влияние на разброс выборочных средних или разброс является следствием случайностей, вызванных небольшими объемами выборок. Другими словами если выборки принадлежат одной и той же генеральной совокупности, то разброс данных между выборками (между группами) должен быть не больше, чем разброс данных внутри этих выборок (внутри групп).

Математическая модель дисперсионного анализа представляет собой частный случай основной линейной модели. Пусть с помощью методов производится измерение нескольких параметров , чьи точные значения –. В таком случае результаты измерений различных величин различными методами можно представить как:

где:

X_j_,_k– результат измерения j-го параметра по методу A_j;
µ_i– точное значение i-го параметра;
a_j_,_k – систематическая ошибка измерения j-го параметра в группе по методу A_j;
e_j_,_k – случайная ошибка измерения j-го параметра по методу A_j.

Пусть x_jk – произвольный элемент всей генеральной совокупности, который также можно трактовать как j-й элемент () k-ой выборки (),

где m – число выборок, n_k – число данных (строк) в k-ой выборке (k – «номер» выборки).

Тогда – выборочное среднее k-ой выборки определяется по формуле

(среднее по столбцу, по группе).

Общее среднее вычисляется по формуле: , где

Основное тождество дисперсионного анализа имеет следующий вид:

Q=Q₁+Q₂,

где

Q – общая сумма квадратов отклонений наблюдаемых значений от общего среднего .

Q₁ – сумма квадратов отклонений выборочных средних от общего среднего (сумма квадратов отклонений между группами);

Q₂– сумма квадратов отклонений наблюдаемых значений от выборочной средней (сумма квадратов отклонений внутри групп);

Расчет этих сумм квадратов отклонений осуществляется по следующим формулам:

В качестве критерия необходимо воспользоваться критерием Фишера:

Если расчетное значение критерия Фишера будет меньше, чем табличное значение – нет оснований считать, что независимый фактор оказывает влияние на разброс средних значений, в противном случае, независимый фактор оказывает существенное влияние на разброс средних значений (λ – уровень значимости, уровень риска, обычно для экономических задач λ=0,05).

Недостаток однофакторного анализа: невозможно выделить те выборки, которые отличаются от других. Для этой цели необходимо использовать метод Шеффе или проводить парные сравнения выборок.

Пример 1. Три участника ВЭД перемещали товар, с отличающимся ИТС. Известен ИТС по каждой товарной партии. Результаты представлены в табл. 3.1.

Таблица 3.1

Участники ВЭД	ИТС отдельных поставок, , долл./кг	Суммарная величина ИТС, долл./кг	Количество поставок, n_k	Средний ИТС,
1	1 3 2 1 0 2 1	10	7	10/7=1,428
2	2 3 2 1 4 - -	12	5	12/5=2,400
3	4 5 3 - - - -	12	3	12/3=4,000

Если число выборок m=3, число поставок во всех выборках n=15, то:

;

Если

тогда

Q = 104 – 15·2,226²= 26,93 ,

Q₁= 91,074 – 15·2,226 ²= 14,01,

Q₂= Q – Q₁= 26,93 – 14,01 = 12,92 .

Вычислим критерий Фишера

Сравнивая это значение с табличным F > F_0,05;2;12 =3,885 (в Excel функция FРАСПОБР() ), делаем вывод, что ИТС связан с количеством поставок.

________________________

Замечание

Процедура дисперсионного анализа состоит в определении соотношения систематической (межгрупповой) дисперсии к случайной (внутригрупповой) дисперсии в измеряемых данных. В качестве показателя изменчивости используется сумма квадратов отклонения значений параметра от среднего: (от англ. Sum of Squares). Можно показать, что общая сумма квадратов раскладывается на межгрупповую сумму квадратов и внутригрупповую сумму квадратов :

Пример 2.

Таблица. Объем возбуждаемых дел по статье 16.1 КоАП
	Нарастание объема товаропотока

Товар	Группа ТП с низким объемом товаропотока (ЮТУ)	Группа ТП со средним объемом товаропотока (ДВТУ)	Группа ТП с высоким объемом товаропотока (СЗТУ)
Т1	8	7	4
Т2	7	8	5
Т3	9	5	3
Т4	5	4	6
Т5	6	6	2
Т6	8	7	4
Суммы	43	37	24
Средние	7,17	6,17	4
Общая сумма	104

Критерий F позволяет проверить гипотезы:

H₀: Различия в объеме правонарушений между группами таможенных постов являются не более выраженными, чем случайные различия внутри каждой группы.

H₁: Различия в объеме правонарушений между группами таможенных постов являются более выраженными, чем случайные различия внутри каждой группы. Используя экспериментальные значения, представленные в Табл. 2, установим некоторые величины, которые будут необходимы для расчета критерия F.

с – число групп, по условию примера 1, у нас 3 группы таможенных постов, следовательно, с = 3;

N – общее число x_i, по условию примера 1, у нас 3 группы и 6 кодов товаров,

следовательно, N = 3*6 = 18;

n – число кодов товаров, по условию примера 1, n = 6


1. Подсчитать SS_факт
2. Подсчитать SS_общ
3. Подсчитать случайную (остаточную) величину SS_сл	SS_сл=SS_общ– SS_факт	SS_сл=63,11-31,44=31,67
4. Определить число степеней свободы	df_факт=c – 1 df_общ=N – 1 df_сл=df_общ– df_факт	df_факт=3-1=2 df_общ=18-1=17 df_сл=17-2=15
5. Разделить каждую SS на соответствующее число степеней свободы	MS_факт=SS_факт/df_факт MS_сл=SS_сл/df_сл	MS_факт=31,44/2=15,72 MS_сл=31,67/15=2,11
6. Подсчитать значение F_эмп	F_эмп=MS_факт/MS_сл	F_эмп(2,15)=15,72/2,11=7,45
7. Определить критические значения F по функции Excel FРАСПОБР()	для df₁=2 df₂=15
8. Сопоставить эмпирическое и критические значения F	При F_эмп>F_кр Н₀ отклоняется	Присутствует связь средневыборочных с группами таможенных постов

Часто встречающееся в этой и последующих таблицах обозначение SS – сокращение от "суммы квадратов" (Sum of Squares).

SS_факт – означает вариативность признака, обусловленную действием исследуемого фактора;

SS_общ – общую вариативность признака;

S_CA – вариативность, обусловленную неучтенными факторами, "случайную" или "остаточную"

вариативность.

MS – "средний квадрат", или математическое ожидание суммы квадратов, усредненная величина соответствующих SS.

df – число степеней свободы, которое при рассмотрении непараметрических критериев мы обозначили греческой буквой v.

Расчет по Примеру 1 в MS Excel

Однофакторный дисперсионный анализ

ИТОГИ
Группы	Счет	Сумма	Среднее	Дисперсия
Группа ТП с низким объемом товаропотока (ЮТУ)	6	43	7,166667	2,166666667
Группа ТП со средним объемом товаропотока (ДВТУ)	6	37	6,166667	2,166666667
Группа ТП с высоким объемом товаропотока (СЗТУ)	6	24	4	2


Дисперсионный анализ
Источник вариации	SS	df	MS	F	P-Значение	F критическое
Между группами	31,444444	2	15,72222	7,447368421	0,005671839	3,682320344
Внутри групп	31,666667	15	2,111111

Итого	63,111111	17

Последовательность операций в однофакторном дисперсионном анализе для несвязанных выборок

Вывод: H₀ отклоняется. Принимается H₁. Различия в объеме правонарушений между группами таможенных постов являются более выраженными, чем случайные различия внутри каждой группы (р<0,01). Итак, подчиненность таможенных постов к соответствующему РТУ влияет на количество правонарушений.

Задание 2

Отделом ТК ПВТ проводится проверка участников ВЭД по выбранному товару. В качестве критерия оценивания используется индекс таможенной стоимости (далее – ИТС) по поставкам, осуществлявшимся в течение 10 отчетных периодов

Отчетный период	Индекс таможенной стоимости, долл./кг
Отчетный период	ООО «Кампус»	ООО «Риф»	ООО «Snoozing»
1	46	74	52
2	48	82	63
3	73	64	64
4	52	72	48
5	72	84	70
6	44	68	78
7	66	76	68
8	46	88	70
9	60	70	54
10	48	60	75

а) является ли распределение ИТС для трех участников ВЭД нормальным?

б) можно ли считать, что для данного товара средний выборочный ИТС связан с конкретным участником ВЭД?

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
11.06.2015132.61 Кб5Лекция 4.1 У-П право.doc
#
25.11.2019147.97 Кб3Лекция 4.2 организация.doc
#
11.06.20151.16 Mб112Лекция 5-6.doc
#
25.09.2019112.13 Кб4Лекция 5. Временные ряды. doc.doc
#
25.09.2019124.42 Кб1Лекция 6. Мод. тенденции при структ. doc.doc
#
29.03.2016125.22 Кб20ЛЕКЦИЯ АФОНИНА 2. Тема 10. Однофакторный дисп анализ.docx
#
11.06.201551.85 Кб8лекция денежные средства.docx
#
15.11.2019846.34 Кб5лекция модуль1.doc
#
20.08.2019458.24 Кб5Лекция МТР тема 2.1...doc
#
29.03.2016769.02 Кб8лекция псо 3 новая1.doc
#
25.09.201998.3 Кб3Лекция № 7. Модели с распределенным лагом.doc