Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Статистика - лекция - Корреляция.doc
Скачиваний:
203
Добавлен:
07.02.2015
Размер:
904.19 Кб
Скачать

ТЕМА: «Статистическое изучение взаимосвязи социально-экономических явлений. Корреляционно-регрессионный анализ».

  1. Причинность, регрессия, корреляция.

  2. Корреляционно – регрессионный анализ. Линейная парная регрессия.

  3. Нелинейная парная корреляция.

  4. Множественная регрессия.

  5. Непараметрические методы анализа.

1. Причинность, регрессия, корреляция.

Исследование объективно существующих связей между явлениями – важнейшая задача теории статистики.

Связи между признаками и явлениями, ввиду их большого разнообразия, классифицируются по ряду оснований. Признаки по их значению для изучения взаимосвязи делятся на два класса. Признаки, обусловливающие изменения других, связанных с ними признаков, называются факторными, или просто факторами. Признаки, изменяющиеся под действием факторных признаков, называют результативными.

Из множества разнообразных форм проявления взаимосвязей в качестве двух самых общих видов выделяют функциональную (полную) и корреляционную (неполную) связи. В первом случае величине факторного признака строго соответствует одно и только одно значение результативного признака. Корреляционная связь проявляется в среднем для массовых наблюдений, когда заданным значениям зависимой переменной соответствует некоторый ряд вероятных значений независимой переменной.

Связи между явлениями и их признаками классифицируются по степени тесноты, по направлению и по аналитическому выражению.

По степени тесноты связи различают количественные крите­рии оценки тесноты связи (в соответствии со шкалой Чеддока, о чём речь пойдёт в дальнейшем).

По направлению связи бывают прямыми и обратными, положительными и отрицательными. При прямой связи с увеличением или уменьшением значений факторного признака происходит увеличение или уменьшение значений результативного. Например, увеличение степени механизации труда способствует росту рентабельности строительного производства. В случае обратной связи значения результативного признака изменяются в противоположном направлении по сравнению с изменением факторного признака. Так, с увеличением уровня фондоотдачи снижается себестоимость единицы производимой продукции.

Относительно своей аналитической формы связи могут быть линейные и нелинейные. Если статистическая связь между явлениями приближенно выражена уравнением прямой линии, то её называют линейной связью; если же она выражена уравнением какой – либо кривой линии (параболы, гиперболы: степенной, показательной и т. д.), то такую связь называют нелинейной или криволинейной.

Для выявления наличия связи, ее характера и направления используют методы: приведения параллельных данных, аналитических группировок, графический, корреляции.

Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального характера, при которой изменение одной из случайных величин приводит к изменению ожидания другой.

В статистике принято различать следующие варианты зависимостей:

1. Парная корреляция – связь между признаками (результативным и факторным признаками или двумя факторными).

2. Частная корреляция - зависимость между результативным и факторным признаками при фиксированном значении других факторных признаков.

3. Множественная корреляция – зависимость результативного и двух или более факторных признаков, включенных в исследование.

  1. Корреляционно – регрессионный анализ. Линейная парная регрессия.

Корреляционно-регрессионный анализ включает в себя измерение тесноты, направление связи и установление аналитического выражения связи.

Одним из методов корреляционно-регрессионного анализа является метод парной корреляции, рассматривающий влияние вариации факторного признака Х на результативный У. Аналитическая связь между ними описывается уравнениями:

прямой

параболы

гиперболы

Если результативный и факторный признаки возрастают одинаково, примерно в арифметической прогрессии, то это свидетельствует о наличии линейной связи между ними, а при обратной связи – гиперболической. Если результативный признак увеличивается в арифметической прогрессии, а факторный значительно быстрее, то используется параболическая или степенная функции.

Оценка параметров уравнения регрессии ао и а1 осуществляется методом наименьших квадратов, в основе которого лежит требование минимальности сумм квадратов отклонений эмпирических данных Yi от выровненных (теоретических) :

min (1)

Система нормальных уравнений для нахождения параметров линейной парной регрессии имеет вид:

(2)

Для оценки типичности параметров уравнения регрессии используется t – критерий Стьюдента. При этом вычисляются значения t- критерия:

для параметра

(3)

для параметра

(4)

В формулах (3) и (4):

(5)

σξ- среднее квадратическое отклонение результативного признака от выровненных значений:

(6)

σX- среднее квадратическое отклонение факторного признака от общей средней.

Полученные по формулам (3) и (4) фактические значения и сравниваются с критическим , который получают по таблице Стьюдента с учетом принятого уровня значимостии числа степеней свободы .

Полученные при анализе корреляционной связи параметры уравнения регрессии признаются типичными, если t фактическое больше t критического

(7)

По проверенным на типичность параметрам уравнения регрессии производится построение математической модели связи. При этом параметры примененной в анализе математической функции получают соответствующие количественные значения: параметр а0 показывает усредненное влияние на результативный признак неучтенных (не выделенных для исследования) факторов; параметр а1 – на сколько изменяется в среднем значение результативного признака при изменении факторного на единицу его собственного измерения.

Проверка практической значимости синтезированных в корреляционно-регрессивном анализе математических моделей осуществляется посредством показателей тесноты связи между признаками х и у.

Для статистической оценки тесноты связи применяются следующие показатели вариации:

  1. общая дисперсия результативного признака , отображающая общее влияние всех факторов

(8)

  1. факторная дисперсия результативного признака , отражающая вариациюy только от воздействия изучаемого фактора x

(9)

Формула (9) характеризует отклонение выровненных значений от их общей средней величины ;

  1. остаточная дисперсия , отражающая вариацию результативного признакаy от всех прочих, кроме x, факторов

(10)

Формула (10) характеризует отклонения эмпирических (фактических) значений результативного признака yi от их выровненных значений .

Соотношение между факторной и общей дисперсиями характеризует меру тесноты связи между признаками x и y

(11)

Показатель R2 называется индексом детерминации (причинности). Он выражает долю факторной дисперсии, т.е. характеризует, какая часть общей вариации результативного признака y объясняется изменением факторного признака x.

На основе формулы (11) определяется индекс корреляции R

(12)

Используя правило сложения дисперсии, получают формулу индекса корреляции

(13)

Формула (71) является основным алгоритмом для определения индекса корреляции с использованием машинной обработки анализируемых данных.

При прямолинейной форме связи показатель тесноты связи определяется по формуле линейного коэффициента корреляции r.

В теории разработаны и на практике применяются различные модификации формулы расчёта данного коэффициента:

, где

или

или (14)

Заметим, что по абсолютной величине линейный коэффициент корреляции r равен индексу корреляции r только при прямолинейной связи.

Линейный коэффициент корреляции изменяется в пределах от -1 до 1: -1 ≤ r ≤ 1. Знаки коэффициентов регрессии корреляции совпадают. При этом интерпретацию выходных значений коэффициента корреляции можно представить в следующей таблице: