Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
СТАТИСТИКАъLABORATORN_J_PRAKTIKUM.doc
Скачиваний:
51
Добавлен:
04.03.2016
Размер:
3.6 Mб
Скачать

Лабораторная работа № 3 Установление линейной корреляционной связи между двумя случайными величинами (факторами).

Корреляционный и регрессионный анализ

Цель и содержание работы

Цель работы: привить навыки по анализу корреляционной (линейной и нелинейной) связи между двумя случайными величинами и установления линейной регрессионной зависимости между двумя факторами. Установление значимости регрессионной модели.

Содержание работы:

1.Запись исходных данных в виде корреляционной таблицы.

2. Предварительная оценка формы связи между двумя факторами (эмпирической).

3. Выполнение промежуточных расчетов.

4. Вычисление выборочного коэффициента линейной корреляции, установление его значимости и силы тесноты связи.

5. Вычисление коэффициента линейной регрессии. Запись уравнений регрессии.

6. Вычисление коэффициента детерминации регрессионной модели.

7. Содержательная и графическая интерпретация корреляционного и регрессионного анализа.

3.1. Краткие теоретические сведения

Взаимосвязь между случайными величинами изучается с помощью корреляционного анализа в том случае, если взаимодействие величин (факторов) нельзя изолировать от влияния большого числа посторонних факторов.

В основе корреляционного анализа лежит соотношение, существующее между значением одной случайной величины и средним значением другой.

Задача установления корреляционной связи распадается на две:

- первая задача состоит в установлении формы корреляционной связи, т.е. в определении вида функции, связывающей значения одной случайной величины со средним значением другой;

- вторая задача состоит в оценке силы (тесноты) корреляционной связи между факторами.

Если изучаются две случайные величины и, заданные парами значений, причем такие, что связь между ними предположительно можно считать линейной, то первая задача решается путем составления линейных уравнений, называемых уравнениями линейной регрессии:

уравнение линейной регрессиина

уравнение линейной регрессиина

где под ипонимаются средние значения случайных величин.

Неизвестные коэффициенты находятся широко используемого метода наименьших квадратов. В общем виде требования метода сводятся , например, для уравнениясостоят вминимизацииквадратической функции невязки между измерениямии моделью этих измерений

по неизвестным коэффициентам и, при которых проиводные от значения критерияпо неизвестным параметрамиравны нулю (необходимое условие существавания экстремума функции):

Решение второй задачи (установление тесноты связи между факторами) сводится к нахождению выборочного коэффициента линейной корреляции

где среднее значение произведений значений случайных величини

средние значенияи;- средние квадратические отклонения случайных величини.

Значения изменяются в пределах от –1 до 1, т.е.Чем ближе значениек единице, тем корреляционная связь между переменнымиитеснее. Значения, близкие к нулю, свидетельствуют о слабой корреляционной связи между факторами.

Если , то анализируемая связь является функциональной, еслито корреляционная связь не существует, однако последнее не означает отсутствия других видов связи (например, нелинейной связи).

Направление связи определяется по знаку . Еслито связь между случайными величинами прямая, т.е. большему значению одной случайной величины соответствует большее значение другой. Еслито связь обратная, т.е. большему значению одной случайной величины соответствует меньшее значение другой. Особо подчеркнем, что выборочный коэффициент линейной корреляциисвидетельствует только о тесноте связи и ничего не говорит о факте зависимости одной случайной величины от другой.

Зависимость устанавливается с помощью уравнения регрессии.

Учитывая, что в работе необходимо решать обе задачи, т.е. установить не только форму связи, но и измерить тесноту этой связи, уравнения линейной регрессии целесообразно искать в следующем виде:

- зависимостьот.

и -зависимостьот,

где - коэффициент линейной регрессиипо

- коэффициент линейной регрессиипо;

В уравнениях линейной регрессии коэффициенты линейной регрессии илихарактеризуют чувствительность одного фактора при изменении другого фактора на одну единицу.

Так как коэффициенты линейной регрессии выражаются через выборочный коэффициент линейной корреляциис помощью формул:

то уравнения линейной регрессии можно записать в виде

и. (*)

Или , (**)

где ,,,

Эти выражения получены приведением формулы .

Уравнения называютсясопряженными.

При линейной зависимости между икоэффициенты корреляции для каждого из сопряженных уравнений можно записать соответственно как

(Проверить !).

Решение обеих задач корреляционного анализа осуществляется на ограниченном числе наблюдений по выборочным из генеральной совокупности данных, поэтому естественно, что вычисляемые характеристики отличаются от аналогичных характеристик генеральной совокупности.

Если выборочный коэффициент линейной корреляции не равен нулю то еще нельзя заключить, что и коэффициент линейной корреляции генеральной совокупности также не равен нулю. Возможно, значение получилось случайно, поэтому необходимо убедиться в том, что вычисленное значениенеслучайно, что она действительно отличается от нуля на значимую величину, и это значение можно перенести на.

Проверка этой гипотезы осуществляется по критерию Стьюдента, путем сравнения наблюдаемого значения случайной величиныс критическим значением, взятым из таблиц распределения критических точек Стьюдента (таблица Приложения), где- с.к.о. коэффициента корреляции.

Подобные рассуждения в случае необходимости можно провести и относительно вычисленных по выборочным данным значений коэффициентов линейной регрессии

и.

Оценка существенности (значимости) уравнения регрессии в целом, т.е. проверка адекватности модели производится путем расчета критерия Фишера и сопоставления его с табличным (критическим).критерий представляет собой отношение факторной дисперсии к остаточной дисперсии, каждая из которых рассчитана на одну степень свободы:

,

где число параметров в уравнении регрессии;

число степеней свободы для факторной дисперсии;

число наблюдений;

число степеней свободы для остаточной дисперсии.

Уравнение регрессии значимо, если с вероятностью, гдеуровень значимости. В этом случае нулевой гипотезойявляется предположение о том, что уравнение регрессии не зачимо. Следовательно, альтернативная гипотезауравнение регрессии значимо.

Отметим, что если форма связи между двумя случайными величинами более сложная,

то иногда с помощью специальной замены от нелинейных связей можно перейти к линейным, т.е. провести линеаризацию.

    1. Если связь типа гиперболической то заменаприводит к линейной связи

    2. Если связь типа показательной то замена

приводит к линейной связи .

    1. Если связь типа степенной то заменаприводит к линейной связи.

    2. Если связь типа логарифмической , то заменаприводит к линейной связи

Итак, в корреляционном анализе количественно оценивается связь между двумя (или несколькими) случайными величинами. Его применение позволяет определить наличие и силу связи между переменными.

Измерить тесноту связи между коррелируемыми величинами – значит определить, насколько вариация результативного признака обусловлена вариацией факторного (факторных) признака (признаков).

Существует универсальный показатель - корреляционное отношение (или коэффициент корреляции по Пирсону), применимое ко всем случаям корреляционной зависимости независимо от формы этой связи (линейной или нелинейной).

Различают эмпирическое и теоретическое корреляционное отношения.

Эмпирическое корреляционное отношение рассчитывается по группировке (или корреляционной таблице) как корень квадратный из отношения межгрупповой дисперсии результативного признакак общей дисперсии результативного признакат.е.

или,

где - общее среднее;- среднее значение группы.

Теоретическое корреляционное отношение определякется на основе выравненных (теоретических) значений результативного признакарассчитанных по уравнению регрессии (для любой формы связи), по формуле

или.

Если обозначить общая дисперсия,факторная дисперсия, то отношение- называетсякоэффициентом детерминации.

Общая дисперсия эмпирического ряда характеризует вариацию результативного признака за счет всех факторов, включая и фактор, т.е. измеряетобщуювариацию величиныа дисперсия теоретического ряда, т.е.характеризует вариацию результативного признака за счет вариации только фактора(при прочих равных условиях). Коэффициент детерминацииили- показывает, какую долю в общей дисперсии результативного признака занимает дисперсия, выражающая влияние вариации факторана вариацию

В основе исчисления и эмпирического и теоретического корреляционного отношения лежит правило сложения дисперсий, согласно которому

,

где остаточная дисперсия, отражающая влияние на вариацию результативного признака всех остальных факторов (кроме), не учтенных в модели (в уравнении регрессии). То есть остаточная дисперсия отражает необъясненные расхождения между эмпирическими и теоретическими значениями результативного признака и рассчитывается по формуле

Так как , то

индекс корреляции.

В случае нелинейной регрессии. Если, то это означает, что признакне коррелирован с факторомСлучайозначает полную зависимость вариацииот вариацииОбычно приговорят о малой зависимости между коррелируемыми величинами, при- о средней, при- о зависимости выше средней и при- о большой, сильной зависимости.

Корреляционное отношение применимо как для парной, так и для множественной корреляции независимо от формы связи (и линейной и нелинейной). В этом смысле его можно назвать универсальным показателем тесноты связи.

В случае линейной корреляции или, а коэффициент детерминации.

Регрессионный анализ позволяет установить, как в среднем изменяется результативный

признак под влиянием одного или нескольких факторов.

По составленному уравнению линейной регрессии можно находить значение одной случайной величины в зависимости от значения другой, не заданной в таблице, если значение последней соответствует тем же условиям, при которых было составлено уравнение. Это позволяет с помощью уравнений линейной регрессии производить недолгосрочное планирование и прогноз.