Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Теор.вероятн. и матем.стат / Практ-ум по Теор.Вер-й и Матем.Статист.,ч.2.doc
Скачиваний:
89
Добавлен:
13.02.2015
Размер:
3.78 Mб
Скачать

6. Элементы прикладного корреляционного анализа

6.1. Введение: основные задачи, понятия и терминология.

Основными задачами корреляционного анализаявляются оценка силы связи и проверка статистических гипотез о наличии и силекорреляционной связи, то есть статистическойвзаимосвязи, когда на изменение одной из случайных величин другая реагирует изменением закона распределения.

Не все факторы, влияющие на изучаемые процессы, являются случайными величинами, поэтому при анализе этих явлений обычно рассматриваются связи между случайными и неслучайными величинами. Такие связи называются регрессионными, а метод математической статистики, их изучающий, называетсярегрессионным анализом.

При этом не существует чёткого различия в статистической терминологии для этих заметно различных задач. Так для изучения взаимозависимости нескольких случайных величин при условии, что воздействие других величин устранено, используется метод частной корреляции, а при рассмотрении зависимости одной случайной величины от группы других применяется множественная корреляция.

a. Корреляционно-регрессионный анализ и его возможности

Первоначально исследования корреляции проводились в биологии, а позднее распространились и на другие области, в том числе на социально-экономическую. Одновременно с корреляцией начала использоваться и регрессия. Корреляция и регрессия тесно связаны между собой: первая оценивает силу (тесноту) статистической связи, вторая исследует ее форму. И корреляция, и регрессия служат для установления соотношений между явлениями и для определения наличия или отсутствия связи между ними.

Корреляционный анализ является одним из методов статистического анализа взаимосвязи нескольких признаков. Он определяется как метод, применяемый тогда, когда данные наблюдения можно считать случайными и выбранными из генеральной совокупности, распределенной по многомерному нормальному закону. Основная задача корреляционного анализа (являющаяся основной и в регрессионном анализе) состоит в оценке уравнения регрессии.

Корреляция – это статистическая зависимость между случайными величинами, не имеющая строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания (или параметров распределения) другой.

Теснота связи количественно выражается величиной коэффициентов корреляции. Коэффициенты корреляции, представляя количественную характеристику тесноты связи между признаками, дают возможность определить «полезность» факторных признаков при построении уравнений множественной регрессии. Величина коэффициентов корреляции служит также оценкой соответствия уравнению регрессии выявленным причинно-следственным связям.

b. Допустимость применения корреляционно-регрессионных методов

Корреляция отражает лишь линейную зависимость величин, что может приводить к парадоксам. Например, если вычислить коэффициент корреляции между величинами η = sin() и = cos(), то он будет близок к нулю, то есть линейная зависимость между величинами отсутствует. Между тем, величины η и очевидно связаны функционально по закону η 2 + 2 = 1.

На рис. 6.1 приведены различные типы диаграмм рассеяния, т.е. распределения значений (xy), над каждым из которых приведено соответствующее значение коэффициента корреляции Пирсона. Обратим внимание на то, что коэффициент корреляции отражает «зашумлённость» линейной зависимости (верхняя строка), но не описывает наклон линейной зависимости (средняя строка), и совсем не подходит для описания сложных, нелинейных зависимостей (нижняя строка). Для распределения в центре рисунка, коэффициент корреляции не определен, т.к. изменчивость y равна нулю.

Рис. 6.1. Ограничения корреляционного анализа

Таким образом, при корреляционном анализе следует учитывать, что:

  1. Применение возможно в случае наличия достаточного количества слу-

чаев для изучения: для конкретного вида коэффициента корреляции

требуется от 25 до 100 пар наблюдений.

  1. Второе ограничение вытекает из гипотезы корреляционного анализа, в которую заложена линейная зависимость переменных. Во многих случаях, когда достоверно известно, что зависимость существует, корреляционный анализ может не дать результатов просто ввиду того, что зависимость – нелинейная (выражена, например, в виде параболы).

  2. Наличие корреляционной зависимости ещё не даёт основания утверждать, что переменные вообще связаны между собой, так как это может быть результатом действия некоего третьего фактора или даже группы факторов.

  3. Не следует делать на основе корреляционного анализа ложные выводы интуитивного характера о наличии причинно-следственной связи между парами признаков, так как коэффициенты корреляции устанавливают лишь статистические взаимосвязи.

Теоретико-вероятностные основы корреляции и регрессии, а также методы анализа и применяемые меры статистической связи, рассмотрены в первой части Практикума. Здесь предлагаются к рассмотрению некоторые статистические аспекты выборочного корреляционно-регрессионного анализа.

Методы корреляционного анализа, регрессии и другие, имеющие отношение к вопросам статистической зависимости, излагаемые здесь относятся к специальному этапу статистических исследований, на котором в отличие от общего требуется выдвижение чётко сформулированной рабочей гипотезы, которую надлежит доказать или опровергнуть. В частности, посредством вычисления показателей корреляции и оценки их достоверности определяют наличие или отсутствие связи между различными признаками объектов.