- •Лекция № 10: «корреляционно-регрессионный анализ» Тема: Продолжение 2 вопроса: Понятие о корреляции, виды корреляционных связей. Задачи корреляционного анализа
- •Парная линейная корреляция
- •3.1. Определение параметров парного линейного корреляционного уравнения и их интерпретация
- •3.2. Измерение тесноты связи
- •3.3. Оценка существенности выборочных показателей связи
- •Множественная корреляция
3.2. Измерение тесноты связи
6. Для измерения тесноты связи в статистике используется коэффициент корреляции (для линейной зависимости) и корреляционное отношение (индекс корреляции) – для нелинейных зависимостей.
Коэффициент корреляции показывает, на какую часть своего среднего квадратического отклонения изменится в среднем результативный признак при изменении факторного на одно его среднее квадратическое отклонение. Рассчитывается по формуле:
Алгоритм расчета коэффициента корреляции:
а) Определим средние значения признака-фактора и признака-результата:
(руб.);
(руб.).
б) Рассчитаем средние квадратические отклонения фактора х и результата у от их средних значений по формулам:
Получим:
Отсюда,
Линейный коэффициент корреляции изменяется в пределах от -1 до 1. Знаки регрессии и корреляции обязательно должны совпадать. Если R = 1, то связь между факторами функциональная, если R = -1, то обратная функциональная.
Для оценки силы связи в теории корреляции применяется шкала английского статистика Чеддока: R = 0 – связь отсутствует;
слабая — от 0,1 до 0,3; умеренная — от 0,3 до 0,5; заметная — от 0,5 до 0,7; высокая — от 0,7 до 0,9; весьма высокая (сильная) — от 0,9 до 1,0.
Вывод: Полученные результаты показывают, что между исследуемыми признаками существует ………………………….. связь, т.е с увеличением себестоимости 1-го центнера зерна прибыль от реализации 1-го центнера будет ………..
7. Рассчитаем коэффициент детерминации, который показывает, какую долю вариации результативного признака, вызывает вариация факторного признака, по формуле:
Получим: .
Вариация прибыли от реализации 1-го центнера зерна на …..% объясняется вариацией себестоимости 1-го центнера зерна, а остальные ……..% вариации результативного признака обусловлены другими, не включёнными в модель факторами.
При криволинейных зависимостях степень тесноты связи между факторами определяется с помощью индекса корреляции (корреляционного отношения):
,
где ;
–фактические значения результативного признака;
–среднее значение признака;
–теоретические значения признака, рассчитанные по уравнению регрессии.
3.3. Оценка существенности выборочных показателей связи
8. Оценим построенное уравнение через среднюю ошибку аппроксимации.
Средняя ошибка аппроксимации – среднее отклонение расчетных значений от фактических. Допустимый предел значений - не более 8 – 10%.
В среднем расчетные значения отклоняются от фактических на …….%. Это значение значительно превышает допустимый предел, следовательно, качество уравнения невысокое.
9. Однако рассчитанные показатели связи по выбранной совокупности являются оценками статистической закономерности и отличаются от показателей в генеральной совокупности. Поэтому необходима статистическая оценка степени точности и надёжности параметров корреляции.
Для оценки статистической надежности результатов используем F-критерий Фишера.
Выдвигаем нулевую гипотезу Но о статистической незначимости полученного уравнения регрессии.
F-критерий Фишера находится по формуле:
Fфакт = · (n-2)
Получим: Fфакт=
Сравним фактическое значение критерия Фишера с табличным. Для этого выпишем значения критерия Фишера из таблицы «Значения F-критерия Фишера при уровне значимости a=0.05».
В нашем примере k1=1; k=18-1-1=16.
Таким образом. Fтабл.=4,49 при =0,05.
Т.к. Fтабл. < Fфакт., то при заданном уровне вероятности =0,05 следует отвергнуть нулевую гипотезу о статистической незначимости уравнения регрессии и показателя тесноты связи.
10. Определим статистическую надёжность показателей и доверительные интервалы, в которых будут находиться показатели генеральной совокупности. Оценка статистической надёжности коэффициентов регрессии и корреляции определяется расчетом случайных ошибок. Принимаем нулевую гипотезу о том, что зависимость между факторами несущественна. Рассчитываем t-критерий Стьюдента.
Вероятностная оценка параметров корреляции производится по общим правилам проверки статистических гипотез, разработанным математической статистикой, в частности путем сравнения оцениваемой величины со средней случайной ошибкой оценки:
Случайные ошибки параметров линейной регрессии и коэффициента корреляции определяются по формулам:
Подставив соответствующие данные в формулы (76, 77 и 78) получим:
Рассчитаем t-критерий Стьюдента для каждого показателя (a,b,r), используя соответствующие формулы:
На основе приведённых формул получим:
,
,
.
По специальной таблице «Значение t-критерия Стьюдента при уровне значимости 0,10; 0,05; 0,01» установим табличное значениеt-критерия Стьюдента. В нашем случаепри уровне значимости 0,05 и числе степеней свободыn-2=18-2=16.
Сравнивая фактическое и критическое (табличное) значения t-статистики принимаем или отвергаем гипотезу Но.
Если tтабл tфакт, то Но отклоняется, т.е. а, b, r не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора x. Если tтабл tфакт, то гипотеза Но не отклоняется и признается случайная природа формирования а, b, r.
следовательно, нулевая гипотеза о несущественности коэффициентов корреляции и регрессии отвергается или принимается (выбрать верный ответ), т. е. а, b, r статистически значимы или незначимы (связь между исследуемыми факторами статистически надёжна или ненадежна).
Для установления доверительного интервала изменения параметров генеральной совокупности рассчитывается предельная ошибка выборки по следующим формулам:
В нашем случае получим:
Таким образом, с вероятностью 0,95 можно утверждать, что параметры генеральной совокупности будут находиться в следующих пределах:
, т.е.
, т.е.
,
Анализ верхних и нижних границ доверительных интервалов приводит к выводу, что с вероятностью p = 1–γ = 0,95 параметры находятся в указанных пределах, причем параметры b и r является статистически незначимым, т.к. в границы доверительного интервала попадает ноль, а параметр а - статистически значимым, т.к. в границы доверительного интервала не попадает ноль
В результате проведённого корреляционного анализа можно сделать вывод о том, что связь между исследуемыми факторами сильная (слабая, средняя,), вариация прибыли от реализации 1-го центнера зерна на ……% объясняется вариацией себестоимости 1-го центнера зерна, параметры корреляции статистически надёжны или ненадежны.
В практической деятельности уравнение регрессиииспользуется:
1) для оценки хозяйственной деятельности на основе отклонений фактических уровней результативного признака от расчётных по уравнению регрессии. Сравнение фактических уровней и расчётных позволяет установить эффективность использования средств в конкретном хозяйстве по сравнению со средней эффективностью использования средств по совокупности хозяйств. Эффективное использование ресурсов установлено в следующих хозяйствах: 1, 5, 6, 7, 8, 12, 15, 17. В остальных хозяйствах ресурсы используются неэффективно, и имеются резервы повышения эффективности производства зерна.
2) для прогнозирования возможных значений результативного признака при заданных значениях факторного признака (точечный прогноз) и т.д.
Для построения точечного прогноза используется уравнение регрессии:
.
Если себестоимость составит 140 рублей (x=140), то ожидаемая прибыль от реализации 1 ц зерна составит:руб.
Доверительный интервал прогноза:
30,53
=34,24
При p=0,95t=2,1009
=2,1009*34,24=71,94 руб.
Значит при себестоимости, равной 140 рублей прибыль от реализации 1 ц зерна будет находиться в пределах (159,07 ±71,94 руб.).