Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ВариацияОкончательно НаПроверку.doc
Скачиваний:
21
Добавлен:
17.12.2018
Размер:
4.05 Mб
Скачать

1.4. Правило сложения дисперсий

Свойство сложения дисперсий является основой важного на - правления статистики – дисперсионного анализа.

На вариацию признаков статистической совокупности, разбитой на группы по определённому признаку, влияют различные причины (факторы) – случайные и постоянные. Возможность оценки каждой из причин иллюстрируется на рис.2.

Рис.2. Природа существования правила сложения дисперсий

Итак, для оценки влияния различных факторов, определяющих колеблемость индивидуальных значений признака, можно воспользоваться разложением дисперсии на составляющие: межгрупповую и внутригрупповую.

Если рассчитать дисперсию признака для всей изучаемой совокупности, т.е. общую дисперсию σо, то полученный показатель будет характеризовать вариацию признака как результат влияния всех факторов, определяющих индивидуальные различия единиц совокупности.

Если поставлена задача выделения в составе общей дисперсии той части, которая обусловлена влиянием какого-либо определённого признака, то следует изучаемую совокупность разбить на группы, положив в основание группировки обследуемый фактор (провести аналитическую группировку). Далее необходимо изучить раздельно вариацию признака внутри однородных групп по данному фактору и изменений величины признака по группам [14].

Выполнение такой процедуры (группировки) позволяет разложить общую дисперсию признака на две, одна из которых будет характеризовать часть вариации, обусловленную влиянием фактора, положенного в основание группировки, а вторая – вариацию, происходящую под влиянием прочих факторов (без фактора, положенного в основание группировки).

Итак, в общем виде применение правила сложения дисперсий заключается в том, что если первичные данные об уровне признака разделяются на некоторое число групп (k), то общая дисперсия σо2 признака может быть определена как сумма межгрупповой дисперсии σм 2 и среднего значения из дисперсий внутригрупповых δ2j (j = 1, ..., k):

σо2 = σм 2 + . (20)

Доказать формулу (20) несложно при учёте того, что межгрупповая дисперсия σм2 характеризует степень колеблемости средних значений признака в каждой группе относительно общего среднего уровня и рассчитывается как

, (21)

где n – число групп, на которые разбита вся совокупность;

mj – число признаков, включенных в группу j ;

– среднее значение признака по группе j;

– общее среднее значение признака.

Внутригрупповые дисперсии (δ2j) характеризуют вариацию при- знака в каждой отдельной группе относительно соответствующих средних значений.

Средняя величина () всех внутригрупповых дисперсий определяется как

= , (22)

где

,

при j = 1, …,n.

Подставляя δ2 и σ 2мг в формулу сложения дисперсий, получаем выражение для расчета общей дисперсии методом моментов.

Свойство сложения дисперсий – основа дисперсионного анализа. В частности, это правило используется для измерения степени взаимосвязи признака (результата с одним или несколькими факторными признаками)[8].

Межгрупповая дисперсия результативного показателя, полученная как результат действия неких факторных обстоятельств или признаков, сопоставляется с общей дисперсией результата.

Это отношение называется эмпирическим коэффициентом детерминации (η2). Квадратный корень из этой величины называется эмпирическим корреляционным отношением.

▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼

=

│►15 . При введении новой системы оплаты труда управляющему производством было дано задание привести в порядок соответствие заработной платы рабочих в зависимости от их производственного стажа. Управляющий выбрал несколько работников (табл.7) и произвёл соответствующие расчёты.

Таблица 7

Данные о заработной плате и стаже работы рабочих

n/n

ФИО

рабочих

Заработная плата

Производственный стаж работы

1

Котов А.А.

3400

8

2

Петров Б.Б.

3600

10

3

Филин В.В.

4000

12

4

Якушев С.С.

3800

25

5

Иванов Е.Е.

4600

31

С точки зрения производственного стажа в бригаде из 5-ти рабочих было выделено 2 группы.

В первую вошли трое рабочих с небольшим стажем, их заработная плата – соответственно 3400 руб., 3600 руб. и 4000 руб., а во вторую группу - остальные двое рабочих с более высоким стажем работы и заработной платой соответственно 3800 руб. и 4600 руб. (данные о заработной плате условны).

Средняя заработная плата по всем рабочим составила

Хср = (3400 + 3600 + 4000 + 3800 + 4600) = 3880 руб.

Средняя заработная плата в первой группе равна

Х 1ср = (3400 + 3600 + 4000) / 3 = 3667 руб.,

а во второй группе:

Х 2ср = (3800 + 4600) / 2 = 4200 руб.

Общая дисперсия заработной плата была определена следующим образом:

σо2=((3400 - 3880)2 + (3600 - 3880)2 + (4000 - 3880)2 + (3800 -

- 3880)2 + (4600 - 3880)2) / 5 = 169 600 руб.2

Межгрупповая дисперсия вычислена:

σ 2мг = ((3667-3880)2 · 3 + (4200 - 3880)2 · 2) / 5 = 68266,7(руб.)

Чтобы определить среднее значение внутригрупповых дисперсий, следует предварительно вычислить по очереди внутригрупповые дисперсии для двух групп.

Для первой группы рабочих

δ21 = [(3400 – 3667) + (3600 – 3667) + (4000 – 3667)] / 3=

= 62222,2 (руб.)2;

для второй группы

δ22 = [(3800 - 4200)2 + (4600 - 4200)2] / 2 = 160 000 (руб.)2.

Затем вычисляем среднее значение двух внутригрупповых дисперсий:

= (62222,2 · 3 + 160000,0 · 2) / 5 = 101 333,3 (руб.)2 .

В качестве проверки была использована зависимость (15):

σо2 = σм 2 + = 68266,7 + 101333,3 = 169 600 (руб.)2.

Степень взаимосвязи уровня заработной платы и признака, положенного в основание группировки (“производственного стажа”), оценивается как:

η2 = 68 266,7 / 169 600 = 0,403.

Это говорит о том, что между стажем работы и уровнем заработной платы из-за небольшого коэффициента детерминации отмечается слабая взаимосвязь. Очевидно, это связано с выбором малого числа наблюдений. Достоверность этой связи нельзя признать статистически значимой. ◄

▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲

Для оценки статистической значимости эмпирического коэффициента детерминации можно рассчитать значение F - статистики, которое затем можно сравнить с табличным значением при заданном уровне значимости и числе степеней свободы.

Фактическое значение F-статистики находится из выражения

Fрасч = . (23)

Табличное значение F - статистики выбирается из специальных таблиц F - распределения при ν1 = (k – 1) и ν2 = (n - k) степенях свободы и некотором уровне значимости α.

Даже если принять достаточно низкий уровень значимости, например α = 0,15, то табличное значение F - статистики в примере при ν1 = (2 – 1) = 1, ν2 = (5 – 2) = 3 составит 3,703.

Фактическая величина Fрасч = 2,02.

Так как фактическое значение F - статистики меньше табличного, то предполагаемое наличие связи признаков “производственный стаж” и “уровень заработной платы” в данном случае нельзя признать статистически значимым.

Имеется другой вариант проверки значимости, конечной целью которого является определение вероятности того, что за счет случайных причин F - статистика могла бы быть больше фактически полученного значения.

Современные системы статистического анализа данных эти расчеты полностью автоматизируют.

В нашем случае такая вероятность (значимость) оказалась на уровне α = 0,250. Чем ниже уровень значимости, тем большим является числовое значение параметра α. Именно поэтому полученное значение α = 0,25 свидетельствует о статистической незначимости вывода о наличии связи. И, следовательно, можно утверждать о возможном случайном характере вывода, о наличии связи результативного и группировочного признаков.

Деление общей дисперсии признака на межгрупповую и внутригрупповую дисперсии позволяет определить (оптимизировать) конкретный состав каждой группы по уровням изучаемого показателя. Специальный алгоритм позволяет найти максимальное значение межгрупповой дисперсии признака (σ 2мг мах) при распределении совокупности на заданное число групп.

Рассмотрим пример.

▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼

│►16 . Для предыдущего примера 15 найдем наибольшее для двух групп значение межгрупповой дисперсии заработной платы. Из совокупности выделим:

1-ю группу – рабочие с оплатой 3400 руб., 3600 руб., 3800 руб. и 4000 руб. со средней по группе 3700;

2-ю группу – один рабочий с заработной платой 4600 руб.

Общая средняя будет равна 3880 руб.2

Межгрупповая дисперсия в этом случае будет равна

σ 2мг =((3700 -3880)2 · 4 + (4600 - 3880)2 ·1) / 5 =129 600(руб.)2

В этом случае степень взаимосвязи

η2 = 129600 /169 600 = 0,764,

то есть 76,4% общей дисперсии заработной платы занимает межгрупповая дисперсия. Любое другое распределение на k = 2 группы имеет меньшую межгрупповую дисперсию. ◄

▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲

При известном значении максимальной межгрупповой дисперсии можно уточнить величину эмпирического коэффициента детерминации

. (24)

В этом выражении первый сомножитель уточняет степень зависимости признака результата (в примере – заработной платы) от группировочного признака, а второй сомножитель характеризует максимальные возможности любого группировочного признака при распределении совокупности на заданное число групп.

Так, в данном примере независимо от способа разбиения совокупности на 2 группы (будь то стаж работы, пол, наличие или отсутствие специального образования, отношение к руководству и т.п.) удельный вес межгрупповой дисперсии в общей не может быть больше, чем

σ 2мг мах / σ 2( γ ) = 122 600 / 169 600 = 0,723.

Следовательно, уточненную эмпирическую детерминацию для признаков “уровень заработной платы” (Y) и “производственный стаж” (ПС) можно оценить как

σ 2( γ ) / σ 2мг мах = 682 66,7 / 122 600 = 0,557.

Как видно, это значение детерминации более отчетливо свидетельствует о наличии взаимосвязи уровня заработной платы и стажа работы.

Определенный по этой методике эмпирический коэффициент детерминации действительно будет находиться в интервале от 0 до 1, а уровень значимости F - статистики оказывается гораздо выше: α = 0,147, что уже можно считать некоторым подтверждением неслучайности обнаруженной связи группировочного (стаж работы) и результативного (оплата труда) признаков.

Можно заметить, что если исходные данные представлены интервальным рядом распределения (т.е. первичные данные распределены на группы), то следует и общую вариацию оценивать по правилу сложения дисперсий. Но обычно это сделать невозможно, так как неизвестны значения признака у каждого наблюдения в интервалах и, следовательно, неизвестны точные средние значения признака в каждом интервале.

От замены средних значений серединами интервалов получающаяся “межинтервальная дисперсия” оказывается больше общей дисперсии (ориентировочно на величину h2/12, поправку Шеппарда) [17].

На практике эту поправку (так же, как и поправку, связанную с небольшим объемом совокупности) вводят редко, и получающаяся дисперсия по данным интервального ряда считается достаточно точной оценкой искомой общей дисперсии.

По аналогии с распределением общей диcперсии на межгрупповую и внутригрупповую составляющие при исследовании конкретных функциональных зависимостей результата Y от одного или нескольких признаков-факторов Хj ( j = 1, ..., n) в общей дисперсии признака результата Y выделяется дисперсия факторная и дисперсия остаточная.

Факторная дисперсия показывает вариацию результата за счет системы факторных признаков Хj (j = 1, ..., n), остаточная дисперсия - за счет факторов, не включённых в исследование, либо за счет случайных причин:

σ 2( Y ) = σ 2факт (Y) + σ 2ост. (25)

Факторная дисперсия рассчитывается как среднее квадрата отклонений теоретических уровней признака-результата (т.е. тех значений Y, которые следуют из теоретической формулы связи, уравнения связи, конкретной функции) от его среднего значения:

σ 2факт (Y) = , (26)

где n – число наблюдений уровня признака результата Y.

Остаточная дисперсия оценивает вариацию фактических значений признака-результата относительно расчетных теоретических уровней. В частности, остаточную дисперсию можно определить как разность общей дисперсии Y и ее факторной составляющей.

▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼

│►17 . Допустим, что уровень заработной платы (Y) оказался cвязанным с величиной производственного стажа (Х):

Yтеор = 2067,7 + 109,774 Х.

Фактические данные об уровне заработной платы рабочих бригады приводились ранее. Тогда при стаже работы Х = (3, 5, 10, 7, 13) лет получаем следующие теоретические уровни признака-результата:

Yтеор = (2397; 2616,6; 3165,4; 2836,1; 3385) руб.

Среднее значение теоретических уровней, так же как и фактических, равно 2880 руб. Сумма квадратов отклонений теоретических уровней от среднего значения равна 641 126,62 (руб.)2. Таким образом, факторная дисперсия равна

641 126,62/5 = 128 225,32 (руб.)2.

Остаточная дисперсия оценивается в 41374,68 (руб.)2. Отношение факторной дисперсии признака результата к общей носит название теоретического индекса детерминации (I2 или D2). Для линейной связи признаков Х и Y это отношение называют квадратом коэффициента корреляции – R2.

В примере: R2 =128225,32 / 169600 = 0,756 (R = 0,869). ◄

▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲

Более точная формула регрессии выглядит следующим образом: У = 2067,66917 + 109,77444Х. Тогда факторная дисперсия равна 128216,6. Остальные результаты практически не изменились.

F - статистика для этого примера равна 9,295 при ν1= 1 и ν2 = 3 степенях свободы, что обеспечивает значимость всего линейного уравнения на уровне 0,055, подтверждая неслучайность линейной связи между стажем работы и уровнем заработной платы.

Подробнее методика оценки тесноты связи и проверка значимости рассматриваются при изучении способов анализа взаимосвязей.