- •1. Понятие о функциональной и корреляционной связи
- •2. Корреляционно-регрессионный анализ
- •3. Регрессионный анализ
- •1. Понятие о функциональной и корреляционной связи
- •1.1. Требования к статистической информации, исследуемой методами корреляционно-регрессионного анализа
- •1.2. Линейная и нелинейная связи
- •2. Корреляционно-регрессионный анализ
- •2.1. Парные (линейные) коэффициенты корреляции
- •Шкала оценок парных коэффициентов корреляции
- •2.2. Оценка существенности связи
- •2.3. Определение множественного коэффициента корреляции
- •3. Регрессионный анализ
- •3.1. Общие принципы построения регрессионных уравнений
- •3.2. Построение парного линейного уравнения
- •Стоимость основных фондов и выпуск продукции по группе заводов
- •Расчет параметров уравнения регрессии
- •4,72 А0 10,8 0,422, откуда а0 0,16.
- •Расчет линейного коэффициента корреляции
- •3.3. Построение множественного уравнения регрессии
- •Расчет параметров уравнения множественной регрессии
- •Расчет коэффициента множественной корреляции
1.1. Требования к статистической информации, исследуемой методами корреляционно-регрессионного анализа
Методы корреляционно-регрессионного анализа можно применить не ко всем статистическим данным. Перечислим основные требования, предъявляемые к анализируемой информации:
1) используемые для исследования наблюдения должны являться случайно выбранными из генеральной совокупности объектов. В противном случае исходные данные, представляющие собой определенную выборку из генеральной совокупности, не будут отражать ее характер, полученные по ним выводы о закономерностях развития окажутся бессмысленными и не имеющими никакой практической ценности;
2) требование независимости наблюдений друг от друга.
Зависимость наблюдений друг от друга называется автокорреляцией, для ее устранения в теории корреляционно-регрессионного анализа созданы специальные методы;
3) исходная совокупность данных должна быть однородной, без аномальных наблюдений. И действительно, одно-единственное, резко выделяющееся наблюдение может привести к катастрофическим последствиям для регрессионной модели, ее параметры окажутся смещенными, выводы абсурдными;
4) желательно, чтобы исходные данные для анализа подчинялись нормальному закону распределения. Нормальный закон распределения используется для того, чтобы при проверке значимости коэффициентов корреляции и построении для них интервальных границ можно было использовать определенные критерии. Если же проверять значимость и строить интервальные оценки не требуется, переменные могут иметь любой закон распределения.
В регрессионном анализе при построении уравнения регрессии требование нормальности распределения исходных данных предъявляется лишь к результативной переменной Y, независимые факторы рассматриваются как неслучайные величины и могут в действительности иметь любой закон распределения. Как и в случае корреляционного анализа, требование нормальности распределения нужно для проверки значимости регрессионного уравнения, его коэффициентов и нахождения доверительных интервалов;
5) число наблюдений, по которым устанавливается взаимосвязь признаков и строится модель регрессии, должно превышать количество факторных признаков хотя бы в 34 раза (а лучше в 810 раз).
Как отмечалось выше, статистическая связь проявляется только при значительном числе наблюдений на основе действия закона больших чисел, причем, чем связь слабее, тем больше требуется наблюдений для установления связи, чем сильнее тем меньше;
6) факторные признаки Х не должны находиться между собой в функциональной зависимости. Значительная связь независимых (факторных, объясняющих) признаков между собой указывает на мультиколлениарность. Ее наличие приводит к построению неустойчивых регрессионных моделей, «ложных» регрессий.
1.2. Линейная и нелинейная связи
Линейная связь выражается прямой линией, а нелинейная какой-либо кривой линией. Линейная связь выражается уравнением прямой: . Прямая наиболее привлекательна с точки зрения простоты расчета параметров уравнения. К ней прибегают всегда, в том числе и в случаях нелинейных связей, когда нет угрозы значительных потерь в точности оценок. Однако для некоторых зависимостей представление их в линейной форме приводит к большим ошибкам (ошибкам аппроксимации) и, как следствие, к ложным выводам. В этих случаях используют нелинейные регрессионные функции, которые в общем случае могут иметь любой произвольный вид, тем более что современное программное обеспечение позволяет быстро их построить. Чаще всего для выражения нелинейной связи используются следующие нелинейные уравнения: степенное, параболическое, гиперболическое, логарифмическое.
Параметры этих моделей, как и в случаях линейных зависимостей, оцениваются также на основе метода наименьших квадратов (см. п. 12.3.1).