- •Институт социальных и гуманитарных знаний
- •Isbn удк ббк
- •Раздел 1
- •Основы методологии статистики
- •Раздел 1 – выводы
- •Раздел 2
- •Основные вопросы организации статистической отчетности
- •3Адание:
- •Раздел 2 – выводы
- •Раздел 3
- •Тема 10
- •Тема 11__________________________________________________________
- •Тема 12
- •Тема 13
- •Раздел 3 – выводы
- •Раздел 4
- •Тема 14
- •Тема 15
- •Тема 16
- •Раздел 4 – выводы
- •Раздел 5
- •Тема 17
- •Тема 18
- •Тема 19
- •Раздел 5- выводы
- •Раздел 6
- •Индексы
- •Тема 20
- •Особенности индексного метода
- •Тема 21________________________________
- •Тема 22
- •Агрегатные и средние индексы
- •Тема 23
- •Раздел 6- выводы
- •Раздел 7_______________________________________
- •Раздел 7 пособия ознакомит вас с некоторыми положениями регрессионно - корреляционного анализа взаимосвязей процессов и явлений, составляющего важную познавательную задачу статистики.
- •Тема 24
- •Тема 25
- •Тема 26
- •3 А д а н и е
- •3 А д а н и е
- •Тема 27.Методы факторного анализа и многомерной классификации
- •Раздел 7-выводы
- •Значения t-критерия Стьюдента (двухсторонний критерий)
- •Литература.
Раздел 7_______________________________________
СТАТИСТИЧЕСКИЙ АНАЛИЗ СВЯЗЕЙ
Раздел 7 пособия ознакомит вас с некоторыми положениями регрессионно - корреляционного анализа взаимосвязей процессов и явлений, составляющего важную познавательную задачу статистики.
Эта задача решается статистикой в определенной последовательности, начиная с наличия связи, выявления ее направления и формы, нахождения аналитического выражения и кончая измерением тесноты связи между изучаемыми признаками. Вы найдете здесь необходимую теорию и практические рекомендации по расчету показателей связи между количественными и атрибутивными признаками и указания по их проверке на значимость (существенность)
В результате изучения этого раздела вы сможете
1. обосновать основные положения теории регрессионно - корреляционного анализа связей явлений, определить его задачи, последовательность этапов проведения, их содержание и методику расчета показателей регрессии и корреляции;
2. объяснить специфику проведения такого анализа по количественным и атрибутивным признакам;
3. провести анализ корреляционной связи между признаками в рамках сквозного контрольного задания;
4. обобщить изученные вами по предыдущим разделам и темам методы статистического изучения общественных явлений во всей их взаимосвязи и взаимообусловленности
Тема 24
ОСНОВНЫЕ ПОНЯТИЯРЕГРЕССИОННО-КОРРЕЛЯЦИОННОГО АНАЛИЗА
После изучения этой темы вы сможете:
дать сравнительную характеристику всех изученных вами по предыдущим разделам и темам методов статистического изучения взаимосвязей различных процессов и явлений;
раскрыть природу корреляционных связей процессов и явлений и обосновать основные понятия регрессионно - корреляционного анализа.
Как известно все процессы и явления в природе и обществе взаимосвязаны и взаимообусловлены.
Существует множество изученных видов и форм связей между ними, различающихся по своей сущности и характеру, по направлению и тесноте, по аналитическому выражению и т.д. Статистика и изучает эти связи, используя различные методы и приемы. Этому служат уже изученные нами группировка и сводка, абсолютные и относительные величины, средние и показатели вариации, динамические ряды и индексы.
В этом разделе объектом нашего исследования выступают особые связи явлений - корреляционные связи, при которой значениям одной переменной соответствуют не значения другой переменной, а разные значения другой переменной. Корреляционные связи позволили рассмотреть связи между процессами и явлениями со всем с другой точки зрения. В каком – то смысле их антиподом является функциональная связь хорошо известная вам, в основном из курса математики, функциональная связь между признаками, когда каждому возможному значению одного из них соответствует одно, вполне определенное, значение другого. Это строгая и полная связь (зависимость) в отличие от статистической, вероятностной, корреляционной. Именно корреляционные связи присущи подавляющему большинству процессов и явлений. Особая роль в изучении статистических, вероятностных связей принадлежит регрессионно-корреляционному анализу (РКА).
РКА заключается в построении и анализе экономико-статистической модели в виде уравнения регрессии, характеризующего зависимость признака от определяющих его факторов.
Первая его составляющая - регрессионный анализ - связана с построением модели - уравнением регрессии,
вторая - корреляционный анализ – в котором главное это оценка теснота связи признаков. РКА предполагает следующие этапы: постановка задачи; ее спецификация; сбор информации и ее первичная обработка; построение модели; проверка модели на достоверность; оценка и анализ модели.
На первом этапе формируются основные направления всего анализа, определяется методика оценки результативного показателя и перечень наиболее существенных его факторов и выбор формы связи.
Очень важным этапом РКА является построение модели (уравнения регрессии). Выбор формы связи признаков осуществляется на основании исходных эмпирических данных и теоретического обоснования рабочей гипотезы о взаимодействии признаков.
Связи в экономических процессах и явлениях, чаще всего, изучаются по уравнению прямой так как эта форма связи наиболее изучена и существуют хорошо отработанные методики расчета. Это линейная зависимость или линейная, связь, которая предполагает равномерное повышение результативного признака в зависимости от роста факторного.
Уравнение прямой (равно и любой кривой) в рамках РКА именуется уравнением связи или регрессии, а геометрическое ее истолкование - линией регрессии.
Уравнение парной линейной регрессии имеет следующий вид:
ух = а0 + вх,
где х -факторный признак; а0 и в - параметры уравнения.
В математическом смысле параметр а является отрезком ординаты при х=0, а параметр в - тангенсом угла наклона прямой.
Экономический же их смысл следующий: а характеризует значение результативного признака вне зависимости от взятого факторного; а, в показывает, насколько в среднем изменится признак у при изменении признака х на одну единицу его измерения, и называется коэффициентом регрессии. На его основе рассчитывается ряд коэффициентов, таких как коэффициенты детерминации, эластичности и ряд других. Он показывает, на сколько процентов в среднем изменится величина функции у при изменении факторного признака х на один процент относительно своей средней. Параметры находятся из системы двух нормальных уравнений для парной линейной регрессии, полученных на основе выравнивания по методу наименьших квадратов МНК:
Первая задача корреляции заключается в выявлении на основе значительного числа наблюдений того, как меняется в среднем результативный признак в связи с изменением одного или нескольких факторов.
Вторая задача состоит в определении степени влияния искажающих факторов.
Первая задача решается определением уравнения регрессии и носит название регрессионного анализа.
Вторая - определением различных показателей тесноты связи и называется собственно и корреляционным анализом.
При изучении влияния одних признаков явлений на другие из цепи признаков, характеризующих данное явление, выделяются факторные и результативные признаки. Выделение признаков ведется логическим анализом.
Например, производительность труда зависит от стажа работы, разряда рабочих. Значит, производительность труда – результативный (функциональный) признак, а стаж, разряд рабочего - факторный признак (аргумент).
Связь между двумя взаимосвязанными признаками легко изобразить графически. Для этого результативный признак (функцию) обозначают y, а факторный (аргумент) - x.
Пару чисел легко представить на плоскости, образуемой системой прямоугольных координат, при этом факторный признак откладывается на оси абсцисс и результативный - на оси ординат.
Если одному значению факторного признака соответствует только одно значение результативного, то такая связь называется функциональной. Функциональные связи легко представить формулами. Например, зависимость силы тока от величины напряжения к сопротивлению в электрической цепи (закон Ома).
Связь между случайными величинами называется стохастической. Эта связь характеризуется тем, что результативный признак не полностью определяется факторным признаком, его влияние проявляется в среднем при достаточно большом числе наблюдений.
Пример
Имеются следующие данные о разряде рабочего и среднемесячной заработной плате.
Таблица 18
Разряд |
1 |
1 |
2 |
2 |
2 |
2 |
3 |
3 |
3 |
3 |
Среднемесячная з/п, р. |
100 |
120 |
150 |
160 |
170 |
190 |
180 |
180 |
180 |
190 |
Разряд |
4 |
4 |
4 |
4 |
4 |
5 |
5 |
6 |
6 |
6 |
Среднемесячная з/п, р. |
180 |
240 |
250 |
300 |
300 |
280 |
280 |
340 |
360 |
410 |
-
Разряд11
2
2
2
2
3
3
3
3
Среднемесячная з/п, р.100120
150
160
170
190
180
180
180
190
Разряд44
4
4
4
5
5
6
6
6
Среднемесячная з/п, р.180240
250
300
300
280
280
340
360
410
Изобразим эти данные графически.
График 15
Видно, что одному значению аргумента (разряду) соответствует ряд распределения функции (зарплаты). Ряды распределения функции закономерно смещаются - зарплата в среднем увеличивается с повышением разряда. Найдем средние значения аргумента и функции.
Таблица 19
|
1 |
2 |
3 |
4 |
5 |
6 |
|
110 |
168 |
186 |
254 |
280 |
370 |
и т.п.
Нанесем на график и и соединим ломаной линией.
Эта линия изображает взаимосвязь между средними значениями аргумента и функции и называется эмпирической линией регрессии. Необходимо установить теоретическую линию регрессии, т.е. установить функцию, связывающую результативный и факторный признаки. Полученная ломаная регрессия (рис. 8) может помочь в выборе функции. Увеличение или уменьшение результативного и факторного признаков в арифметической прогрессии означают, что сглаживание нужно производить по прямой . В этом случае эмпирические графики должны быть (рис.):
Если равноускоренное или равнозамедленное изменение функции то сглаживание можно провести по параболе второго порядка или по гиперболе.
.
График 19 График 20
Более сложные зависимости могут быть иллюстрированы параболой третьего порядка, логарифмической или показательной функцией.
Выбрав теоретическую функцию, описывающую корреляционную зависимость между результативным и факторным признаком, нужно рассчитать параметры уравнения регрессии. Расчет чаще всего производится по способу наименьших квадратов при использовании системы нормальных уравнений.
Эти системы различны для разного рода кривых:
Прямая линия ;
Парабола второго порядка ;
Гипербола .
.
В нашем примере, используя в качестве теоретической функции прямую , рассчитаем параметры уравнения.
Для этого определим .
Решив систему нормальных уравнений, найдем a 54, b 50.
Следовательно, уравнение имеет вид .
Значит, для рабочего 2 разряда зарплата по уравнению рассчитывается (р.) - что отличается от эмпирических данных.
Теснота или сила связи между двумя признаками может быть измерена эмпирическим корреляционным отношением ()
.
В случае прямолинейной связи тесноту можно определить с помощью коэффициента корреляции (r).
.
Коэффициент корреляции может изменяться от +1 до -1. Чем ближе значение r по абсолютной величине к единице, тем теснее связь. Если r > 0, то связь между факторным и результативным признаком прямо пропорциональная, если r < 0, то - обратно пропорциональная.
В нашем примере:
Значит, связь прямо пропорциональная, достаточно тесная.
Задание
Приведите пример корреляционных по своей сути связей.
Подумайте какая по форме связь между:
Заработной платой и количеством продукции при;
сдельной формой оплаты труда,
повременной оплатой труда
при фиксированном окладе
Регрессионные методы позволяют выявить связи между переменными, причем особенно эффективно, если эти связи не совершенны или не имеют точного функционального описания между этими переменными. В эконометрическом анализе используются независимые переменные хi и одна зависимая переменная y. Регрессией в общем виде представляется функцией следующего вида
где - известные коэффициенты регрессии;
xi - переменная. В эконометрическом анализе переменные представляют собой статистические данные, например стоимость товара, объем продаж, курс валюты. Так как эти данные чаще всего «привязаны» ко времени, то в эконометрических моделях используют и другие обозначения переменных, такие как Xt, где индекс t обозначает, что мы используем временной ряд.
- неувязка (ошибка, отклонение, возмущение), обусловленная недостаточной пригодностью модели и ошибкой данных. Обычно эти причины являются смешанными.
Обозначения в модели интерпретируются достаточно просто. Например, сумму
можно представить как сумму произведений коэффициента b и переменной х
.
В последующем для упрощения выражений знак суммы мы будем обозначать без индексов, как .
В том случае, если исследуется влияние одной переменной или фактора, то выражение упрощается к виду
Выражение представляет собой линейную однофакторную регрессию. Геометрический смысл уравнения поясним на рис.
Пусть мы имеем четыре измерения переменнойх, которые имеют конкретное значение р1 ,р2, р3, р4. Этим значениям соответствуют определенные значения зависимой переменной y. Тогда уравнение регрессии 2.2 представляет собой прямую линию проведенную определенным образом через точки р1 ,р2, р3, р4. Так как истинное значение переменной нам неизвестно, то мы предполагаем, что оно располагается на этой прямой в точках Q1, Q2, Q3, Q4. Свободный член а уравнения 2.2 имеет реальный экономический смысл. Это минимальное или максимальное значение зависимой переменной (результативного признака).
Коэффициент b представляет собой постоянную величину, равную отношению
Природа ошибки
Существует, по крайней мере, две причины появления в модели этой ошибки или как ее еще называют – возмущение.
Наша модель является упрощением действительности и на самом деле есть еще и другие параметры, от которых зависит переменная y. Например, расходы на питания в семье зависят от размера заработной платы членов семьи, национальных и религиозных традиций, уровня инфляции и т.д.
Скорее всего, наши измерения содержат ошибки наблюдения. Например, данные по расходам семьи на питание составляются на основе а опроса и эти данные не всегда отражают истинное значение параметров. Необходимо отметить, что любые формы наблюдения, включая документальный содержат ошибки.
Таким образом, можно считать, что ошибка есть случайная величина с некоторой функцией распределения.
Задание
Известно, что спрос связан с предложением, что может составить ошибку влияющей на спрос.
Для нахождения коэффициентов уравнений и используется метод наименьших квадратов. Сущность метода заключается в том, чтобы минимизировать сумму квадратов отклонений
,
где - значение результата, вычисленное по уравнению (2) в точке xi ;
yi - экспериментальное значение результата в этой же точке.
Рассмотрим задачу «наилучшей» аппроксимации набора наблюдений Yt,, t = 1,..., n, линейной функцией (2.2) минимизацией функционала
Запишем необходимые условия экстремума
Раскроем скобки и получим стандартную форму нормальных уравнений (для краткости опустим индексы суммирования у знака суммы):
а, b – решения системы (2.4) можно легко найти:
Порядок построения регрессионной модели рассмотрим на следующем примере.
В таблице представлены статистические данные о расходах на питание и душевом доходе для девяти групп семей. Требуется проанализировать зависимость величины расходов на питание от величины душевого дохода.
В соответствии с этим первый показатель будет результативным признаком, который обозначим у, а другой будет факторным признакам, или просто фактором, и мы обозначим его соответственно х1 . Это обозначение не случайно, в последующем примере мы рассмотрим более сложную модель, в которой будет два фактора х1 и х2.
Таблица 19
Номер группы |
Расход на питание (у) |
Душевой доход (х1) |
1 |
433 |
628 |
2 |
616 |
1577 |
3 |
900 |
2659 |
4 |
1113 |
3701 |
5 |
1305 |
4796 |
6 |
1488 |
5926 |
7 |
1646 |
7281 |
8 |
1914 |
9350 |
9 |
2411 |
18807 |
-
ер группыРасход на питание (у)Душевой доход (х1)
1433628
26161577
39002659
11133701
513054796
614885926
716467281
819149350
9241118807
Рассмотрим однофакторную линейную модель зависимости расходов на питание (у) от величины душевого дохода семей (х1).
Расчеты проведем в таблице.
Таблица 20
|
|
|
|
|
Номер группы |
Расход на питание (у) |
Душевой доход (х1) |
Y Х1 |
Х12 |
1 |
433 |
628 |
271924 |
394384 |
2 |
616 |
1577 |
971432 |
2486929 |
3 |
900 |
2659 |
2393100 |
7070281 |
4 |
1113 |
3701 |
4119213 |
13697401 |
5 |
1305 |
4796 |
6258780 |
23001616 |
6 |
1488 |
5926 |
8817888 |
35117476 |
7 |
1646 |
7281 |
11984526 |
53012961 |
8 |
1914 |
9350 |
17895900 |
87422500 |
9 |
2411 |
18807 |
45343677 |
353703249 |
|
= 11826 |
= 54725 |
= 98056440 |
= 575906797 |
-
Номер группыРасход на питание (у)Душевой доход (х1)
Y Х1
Х12
1433628
271924
394384
26161577
971432
2486929
39002659
2393100
7070281
411133701
4119213
13697401
513054796
6258780
23001616
614885926
8817888
35117476
716467281
11984526
53012961
819149350
17895900
87422500
9241118807
45343677
353703249
= 11826 = 54725
= 98056440
= 575906797
Номер группыРасход на питание (у)Душевой доход (х1)
Y Х1
Х12
1433628
271924
394384
26161577
971432
2486929
39002659
2393100
7070281
411133701
4119213
13697401
513054796
6258780
23001616
614885926
8817888
35117476
716467281
11984526
53012961
819149350
17895900
87422500
9241118807
45343677
353703249
= 11826 = 54725
= 98056440
= 575906797
Используя данные таблицы, получим систему уравнений:
|
|
Можно найти значения коэффициентов по формулам , но мы покажем как можно использовать более общий подход к решению задачи по правилу Крамера, для этого найдем значения определителей системы :
Тот же результат можно получить, используя следующие формулы
Таким образом, модель имеет вид:
y = 660,11 + 0,108 Х1 |
|
Уравнение называется уравнением регрессии, коэффициент b — коэффициентом регрессии. Направление связи между у и x1 определяет знак коэффициента регрессии а1. В нашем случае данная связь является прямой и положительной.
Вычислим дисперсии оценок а и b. Известно, что дисперсии оценок а и b можно определить как
где - дисперсия ;
отклонения исходной выборки от среднего значения;
, среднее значение;
- значения расходов на питание, вычисленные по модели.
Для проведения расчетов дисперсий полученных оценок используем таблицу.
Таблица 21
№№ |
Y |
X |
X2 |
|
|
|
|
|
1 |
433 |
628 |
394384 |
727 |
-294 |
86436 |
-5453 |
29730362 |
2 |
616 |
1577 |
2486929 |
830 |
-214 |
45796 |
-4504 |
20282013 |
3 |
900 |
2659 |
7070281 |
947 |
-47 |
2209 |
-3422 |
11707042 |
4 |
1113 |
3701 |
13697401 |
1059 |
54 |
2916 |
-2380 |
5662285 |
5 |
1305 |
4796 |
23001616 |
1178 |
127 |
16129 |
-1285 |
1650083 |
6 |
1488 |
5926 |
35117476 |
1300 |
188 |
35344 |
-155 |
23887 |
7 |
1646 |
7281 |
53012961 |
1446 |
200 |
40000 |
1200 |
1441067 |
8 |
1914 |
9350 |
87422500 |
1669 |
245 |
60025 |
3269 |
10689267 |
9 |
2411 |
18807 |
353703249 |
2691 |
-280 |
78400 |
12726 |
161962388 |
|
=11826 |
6081 |
=575906797 |
|
|
=367255 |
|
=243148394 |
-
YX
X2
1433628
394384
727
-294
86436
-5453
29730362
26161577
2486929
830
-214
45796
-4504
20282013
39002659
7070281
947
-47
2209
-3422
11707042
411133701
13697401
1059
54
2916
-2380
5662285
513054796
23001616
1178
127
16129
-1285
1650083
614885926
35117476
1300
188
35344
-155
23887
716467281
53012961
1446
200
40000
1200
1441067
819149350
87422500
1669
245
60025
3269
10689267
9241118807
353703249
2691
-280
78400
12726
161962388
=118266081
=575906797
=367255
=243148394
Для определения параметров уравнения регрессии, выраженного степенной функцией вида, следует привести ее к линейному виду путем логарифмирования. Это уравнение будет отличатся от уравнения парной линейной регрессии только логарифмами и, заменив в формулах его параметров на их логарифмы, получим расчетные формулы для параметров. Сама величина в, логарифмом не заменяется, в является, как было показано выше, коэффициентом регрессии. По нему рассчитывается коэффициент эластичности.
После построения модели уравнения регрессии она оценивается на предмет ее согласования с теоретическими соображениями относительно направления изменения ух (знака параметра в) и характера его изменения уже в конкретных условиях исследуемой совокупности. В случае выявившегося несоответствия выясняются причины этого, среди которых могут быть ошибки в исходной информации и в расчетах, влияние не учтенных признаков, и, наконец, неправильно выбранная модель. В последнем случае строятся другие модели и отбирается та из них, которая обеспечивает меньшие отклонения теоретических уровней от эмпирических
Задание
Вам предлагается выписать и еще раз осмыслить все уравнения регрессии (модели), встретившиеся в тексте данной Темы, привести соответствующие им системы нормальных уравнений и формулы определения параметров уравнений