Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
otvety_po_statistike.doc
Скачиваний:
11
Добавлен:
13.09.2019
Размер:
7.51 Mб
Скачать

Практические задачи, решаемые с помощью корреляционно-регрессионный анализа (кра):

1 - наличие причинно-следственной связи, однозначно определяется зависимая переменная (т.е. признак-результат), и независимая переменная (т.е. признак-фактор).

признак-результат - следствие (объем пр-ва)

признак-фактор - причина ( производительность)

2 - наличие взаимосвязи между признаками, изменение одного признака ведет к изменению другого признака, но при этом однозначно не определить, что причина, а что следствие.

3 - наличие ложной корреляции. Ложная корреляция - параллельное изменение двух признаков обусловленное одновременным влиянием на них третьего признака.

27. Показатели тесноты связи.

Показатели корреляции позволяют подтвердить или опровергнуть наличие корреляционной зависимости между изучаемыми признаками, а также измерить степень тесноты корреляционной зависимости.

Первый коэффициент корреляции - парный коэффициент корреляции Пирсена.

Коэффициент корреляции строится исходя из оценки совместного варьирования двух признаков.

(yi-y)*(xi-x) - среднее произведение этих признаков - ковариация.

Показатель ковариации трудно интерпретировать содержательно, поэтому на практике статистического анализа практически не используется.

Путем стандартизации показатели ковариации получаем коэффициент корреляции Пирсена.

r- коэффициент корреляции Пирсена.

r=[∑(yi-y)*(xi-x)/n*6y*6x]

r=(yi*xi-x*у)/(6y*6x)

Парный коэффициент корреляции изменяется в пределах от 0 до 1 по модулю (0≤|х|≤1)

Коэффициент корреляции может быть отрицательным и положительным.

Знак коэффициента корреляции характеризует направленность зависимостей.

Если коэффициент корреляции отрицательный, то зависимость между изучаемыми признаками обратная.

Если коэффициент корреляции положительный, то зависимость между изучаемыми признаками прямая.

Близость коэффициента корреляции к нулю означает отсутствие связи.

Близость коэффициента корреляции к единице означает, что связь тесная.

Если коэффициент корреляции равен единице, то связь функциональная.

0≤|r|≤0,3 - связь практически отсутствует

0,3≤|r|≤0,5 - связь заметная

0,5≤|r|≤0,7 - связь умеренная

|r|>0,7 - связь тесная

Значимость коэффициента корреляции от объема изучаемых признаков.

(28. Множественный и частный коэффициент)Парный коэффициент корреляции оценивает тесноту связи между парой признаков. При изучении множественной зависимости множественный коэффициент корреляции, кот. характеризует степень тесноты связей между признаком-результатом или некоторыми признаками-факторами.

2

r - коэффициент детерминации, характеризует долю объясненной дисперсии признака-результата.

Объясненная дисперсия - факторная дисперсия, т.е. дисперсия признака-результата обусловленная вариацией признака-фактора.

2

r =0,78, т.е. вариация оборота продукции на 78% связано с производительностью труда.

При двухфакторной модели связей множественный коэффициент корреляции - Ry1x1x2

2 2 2 2 2 2

Ry1x1x2=√(rух1+rух2-2rух1*rух2*rх1х2)/(1-rх1х2)

Если число анализируемых факторов больше 2, то множественный коэффициент корреляции

2 2

Ry1x1x2xn=√σф/σобщ

На основе факторной и общей дисперсии.

2

R - множественный коэффициент детерминации, характеризует долю объемной (факторной) дисперсии, результативного признака в общей дисперсии признака-результата.

Множественный коэффициент корреляции изменяется в пределах от 0 до 1.

При изучении множественной корреляционной зависимости часто возникает необходимость рассчитать частные коэффициенты корреляции, которые оценивают степень тесноты с одним из анализируемым фактором при условии эллеминирования влияния других факторов, включенных в анализ.

Эллеминирование выполняется путем закрепления значений фактора на определенном (как правило на среднем уровне) уровне.

При изучении двухфакторной корреляционной зависимости рассчитывают 2 коэффициента частной корреляции.

2 2

Ryx1,x2=(ryx1-ryx2*rx1x2)/[(1-ryx2)*(1-rx1x2)

Данный коэффициент оценивает тесноту зависимости у от х1 при условии эллеминирования (х2).

2 2

Ryx2,x1=(ryx2-ryx1*rx1x2)/[(1-ryx1)*(1-rx1x2)

Оценивает тесноту связи между (у) и фактором (х2), при условии эллеминирования влияния фактора х(1).

Рассмотренные выше коэффициенты корреляции дают надежные оценки при наличии линейной зависимости между признаком-результатом и признаками-факторами.

Если связь между изучаемыми признаками нелинейная, то при оценке тесноты связи предпочтение следует отдать показателю корреляционному отношению.

Если корреляционное отношение считается по результатам регрессионного анализа, то оно называется теоретическое.

Если по результатам аналитической группировки: эмпирическое.

Теоретическое корреляционное отношение - это отношение факторной дисперсии к общей дисперсии результативного признака.

2 2

η=σфакт/σобщ

2 2

σобщ=∑(yi-y)/n

2 2

σфакт=∑(yi-y)/n

у- теоретическое значение

2 2

σост=∑(yi-y)/n

Остаточная дисперсия - это дисперсия признака-результата обусловленная прочими факторами не включенными в анализ.

2 2

η=√∑(yi-y)/∑(yi-y)

Теоретически корреляции изменилась от 0 до1. Чем ближе значение корреляционного отношения к 1, тем теснее зависимость между изучаемыми признаками.

2

η - коэффициент детерминации и характеризует долю дисперсионного результативного признака, объясненную вариацией анализируемого приз нака-фактора, т.к. рассчитывается как отношение дисперсии факторной к общей результативного признака.

Эмпирическое корреляционное отношение рассчитывается по данным аналитической группировки, как отношение межгрупповой дисперсии к общей дисперсии результативного признака.

Сравнивая значение коэффициента корреляции с теоретическим корреляционным отношением можно сделать вывод о правомерности использования уравнения линейной зависимости для описания связи между изучаемыми признаками, т.к. в условиях линейной зависимости величина коэффициента корреляции относительно совпадает.

Индекс корреляции (ρ)- показывает тесноты связи.

2 2

ρ=√1−σост/σобщ

Расчет показателя вариации следует предварять анализам корреляционного поля с целью выявления «выбросов».

Если на поле корреляции выделяются 2 и более группы, то говорят, что в изучаемой совокупности присутствуют кластеринг.

В этом случае совокупность разбивается на группы (кластеринг) показывается корреляции и анализ ведется в разрезе отдельных групп.

29. Парная линейная регрессия.

Задачи: регрессионный анализ лежит в сфере установленных форм зависимости, определенными факторами регрессии, использования уравнения для оценки неизвестных значений зависимой переменной.

у - признак-результат, зависимая переменная

х - признак-фактор, независимая переменная

Существует достаточно важная характеристика связей с точки зрения взаимодействия фактора.

Если характерная связь 2-х признаков - парная, если более 2-х - множественная.

(30 вопрос)Для характерного изменения влияния (х) на вариацию (у) служат методы регрессионного анализа.

В случае парной линейной зависимости строится регрессионная модель: yi=a0+a1xi+еi, где i=1,...,n

n-число наблюдений;

а0, а1 - неизвестные характеристики уравнения;

еi- ошибка случайной переменной (у).

При подстановки (х) получаем парное уравнение регрессии.

уiтеор=a0+a1xi

уiтеор- рассчитанное значение результативного признака;

а0, а1 - рассчитанные с помощью значений различных мат. методов и процедур. Наиболее распространен - метод наибольших квадратов.

2

Оценки а0, а1 наименьшим образом получаются когда ∑(yi-yiтеор)→min

Сумма квадратов отклонени я эмпирических значений зависимых переменных от вычисления по уравнению регрессии должны →min.

dF/da=0

dF/da0=0

2 2

a1=(ху-х*у)*/х-(х)

2 2 2

х-(х)=σх

Форма представляется в виде уравнения регрессии.

Уравнение регрессии - определенная математическая функция, которая описывает связь между зависимой и независимой переменной.

Простейший вид уравнения регрессии - парная линейная регрессия.

у=а+bх

у - признак-результат (зависимая переменная)

х - признак-фактор (независимая переменная)

а, b - параметры уравнения.

Эта запись предполагает, что значение признака-результата (у) полностью определяются значениями признака-фактора (х).

у=а+bхi+ei

ei - ошибка (остаток) регрессии

Если на поле координат нанести поле корреляции в виде точек, координаты которого определяются значениями признака-результата и признака-фактора у каждой единиц совокупности. (69 квартир, т.е. 69 точек) И построить линию регрессии.

ei - разница между фактическими и теоретическими значениями у.

ei - разница по вертикали между точкой на поле корреляции и точкой на линии регрессии.

Т.к. в соц.-экон. явлениях функциональная зависимость отсутствует, то ошибка выборки уравнения регрессии будет всегда.

Парная регрессия широко используется на практике (как и парная корреляции), т.к. часто имеется фактор доминирующий среди множества факторов определяющих признак-результат, а также нередко возникает необходимость оценить влияние одного конкретного фактора.

Чтобы воспользоваться уравнением регрессии нужно рассчитать его параметры.

Самый распространенный метод вычисления параметров регрессии - метод наименьших квадратов (МНК).

Суть МНК - удается получить такие значения параметров, при которых минимизируется сумма квадратов отклонений расчетных или теоретических значений признака-результата от их фактических значений.

2

S=∑(yi-y)→min

Рассмотрим S как f(a,b) проводят дифференцирование приравнивая частичные производные к нулю и строят систему нормальных уравнений.

df/da=0 df/db=0

Решение системы нормальных уравнений позволяет найти параметры a и b.

2

b=(x*y-x*y)/σx

2

σx - дисперсия признака-фактора.

у=а-bх

Пример: при оценке зарплаты от величины прожиточного минимума.

у=0,77+0,92х → (0,77 - а, 0,92 - b)

у - зарплата по регионам

х - величина прожиточного минимума

Параметр а - содержательно не интерпретируется.

Параметр b - коэффициент регрессии и характеризует на сколько единиц своего измерения изменяется признак-р езультат при изменении признака фактора на 1 своего измерения.

0,92 - при изменении величины прожиточного минимума на 1 рубль, величина зарплаты увеличится на 92 копейки.

Знак при коэффициенте регрессии характеризует направленность зависимости.

(+) - зависимость прямая

(-) - зависимость обратная

31. Множественная регрессия.

Построение уравнения множественной регрессии обусловлено ожиданием на изучаемые социально-экономические явления изучением нескольких факторов и желанием исследователя оценить их совокупное влияние на изучаемое явление. Общая запись:

n – число факторов

Параметры фактора называются условно чистыми. Их можно было бы назвать чистыми, если бы в уравнение можно было включить все факторы, определяющие признак результат. Но, как правило, это невозможно, т.к. число факторов (х) включенных в анализ ограничивается объектом изучаемой совокупности, а также могут быть факторы, влияние которых просто неизвестно.

Чистые коэффициенты регрессии интерпретируются аналогично парным коэффициентам регрессии, но их значения не совпадают. Несовпадение коэффициентов парной и множественной регрессии для одних и тех же факторов обусловленных тем что в парной регрессии не учитывается связь между факторами, и если фактор(площадь кухни) тесно связан с фактором (площадь квартиры), то в уравнении парной регрессии при оценке одного фактора учитывается другой.

Коэф. регресси во множ. регрессии характеризует влияние конкретного фактора на результат при условии, что остальные факторы останутся неизменными, т.е. их влияние иллюстрируется, т.е. во множ. уравнение мы получаем очищенную оценку влияния конкурентного фактора.

Коэф. регрессии характеризует силу связи между (х) и (у).

При построение уравнения множ. Регрессии имеется возможность ранжировать факторы по степени их влияния на (у), однако (х) – именованные величины, и могут быть выражены в разных единицах измерения, следовательно, непосредственно ранжированы быть не могут.

Возможность оценить и ранжировать (у) дает переход к относительным характеристикам, в качестве которых могут быть использованы так называемые - коэффициенты или коэффициент эластичности(Е). - коэффициенты используются для построение уравнения регрессии стандартном виде. Он раскладывается как коэф. регрессии умноженный на отношение среднеквадратического отклонения (х) на среднеквадратическое отклонение (у). Е- коэф-т рассчитывается:

32. В-коэффициенты, эластичность.

Чистые коэффициенты регрессии интерпретируются аналогично парным коэффициентам регрессии, но их значения не совпадают. Несовпадение коэффициентов парной и множественной регрессии для одних и тех же факторов обусловленных тем что в парной регрессии не учитывается связь между факторами, и если фактор(площадь кухни) тесно связан с фактором (площадь квартиры), то в уравнении парной регрессии при оценке одного фактора учитывается другой.

Коэф. регресси во множ. регрессии характеризует влияние конкретного фактора на результат при условии, что остальные факторы останутся неизменными, т.е. их влияние иллюстрируется, т.е. во множ. уравнение мы получаем очищенную оценку влияния конкурентного фактора.

Коэф. регрессии характеризует силу связи между (х) и (у).

При построение уравнения множ. Регрессии имеется возможность ранжировать факторы по степени их влияния на (у), однако (х) – именованные величины, и могут быть выражены в разных единицах измерения, следовательно, непосредственно ранжированы быть не могут.

Возможность оценить и ранжировать (у) дает переход к относительным характеристикам, в качестве которых могут быть использованы так называемые - коэффициенты или коэффициент эластичности(Е). - коэффициенты используются для построение уравнения регрессии стандартном виде. Он раскладывается как коэф. регрессии умноженный на отношение среднеквадратического отклонения (х) на среднеквадратическое отклонение (у). Е- коэф-т рассчитывается:

33. Матрица парных коэффициентов.

Отбор факторов уравнения множ. регрессии. Матрица парных коэф-в корреляции.

Необходимость отбора связана с двумя моментами:

1. исследователь, как правило, работает либо с выборочной совокупностью, либо с совокупностью ограниченного объема.

2. между факторами, обуславливающими изменение (у) часто существует тесная линейная зависимость – коллинеарная зависимость – коллинеарность. Множественная зависимость – мультиколлинеарность.

Если (х) коллинеарны, то они могут быть вместе включены в уравнение множ. Регрессии, т.к. не удасться выдеоить влияние каждого фактора. Подбор факторов осуществляется при помощи матрицы корелляции:

1

1

1

1

1

1

Матрица содержит коэф-т парной корелляции каждого фактора с (у) а так же коэф-т корелляции между факторами, т.к. парный коэф-т корелляции – это показатель симметричный , матрица симметрична относительно единичной диаграммы, для ее построения достаточно заполнить одну из частей. Первая строчка будет содержать коэффициент корелляции между каждым фактором и признаком результатом…

Для отбора факторов сначала рассматривается 1-3 строка матрицы (или 1-й столбец) ? коэф. корелляции, которые оценивают степень тесноты связи признака результата и соответствующих факторов

Для анализа исключаются те факторы коэф. корелляция которых с результатом .

Поскольку такая величина коэффициента свидетельствует о том, что фактор практически не оказывает влияния на вариацию результата признака, т.о. не сказывается на изменении его величины.

Далее рассматриваются остальные коэф-ты корелляционной матрицы, оценивающие связь между факторами. Коллинеарно связанными считаются факторы при значении коэф. корелляции .

Если в матрице присутствуют такие величины коэффициентов, то один из коллинеарно связанных факторов из анализа исключен.

Исключается тот фактор, который в меньшей степени влияет на признак результат, т.е. у которого коэф. корелляции с зависимой переменной ниже. После отбора факторов строится уравнение регрессии, которое необходимо оценить с точки зрения статистической значимости уравнения в целом, а также его параметров.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]