Добавил:
ilirea@mail.ru Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
34
Добавлен:
21.08.2018
Размер:
569.53 Кб
Скачать

Корреляционный анализ.

Регрессионный анализ позволяет оценить, как одна переменная зависит от другой и каков разброс значений зависимой переменной вокруг прямой, определяющей зависимость. Эти оценки и соответствующие доверительные интервалы позволяют предсказать значение зависимой переменной и определить точность этого предсказания. Результаты регрессионного анализа можно представить только в достаточно сложной цифровой или графической форме.

Однако, исследователя часто интересует не предсказание значения одной переменной по значению другой, а просто характеристика тесноты (силы) связи между ними, при этом выраженная одним числом. Эта характеристика называется коэффициентом корреляции, обычно ее обозначают буквой r. Корреляция означает, что между двумя числовыми переменными наблюдается определенная линейная взаимосвязь.

Корреляционная связь не является точной зависимостью одного признака от другого, поэтому она может иметь различную степень – от полной независимости до очень сильной связи. Кроме того, характер связи между разными признаками может быть различен. Поэтому возникла необходимость определять форму, направление и степень корреляционных связей.

По форме корреляция может быть прямолинейной и криволинейной, по направлению – прямой и обратной. Степень корреляции измеряется различными показателями, введенными для установления силы связи между количественными и качественными признаками. Коэффициент корреляции может принимать значения от –1 до +1. Знак коэффициента корреляции показывает направление связи (прямая или обратная), а абсолютная величина — тесноту связи. Коэффициент, равный –1, определяет столь же жесткую связь, что и равный 1. В отсутствие связи коэффициент корреляции равен нулю.

Коэффициент корреляции Пирсона предназначен для описания линейной связи количественных признаков; как и регрессионный анализ, он требует нормальности распределения.

Коэффициент корреляции Пирсона (r) представляет собой меру линейной зависимости двух переменных. Когда говорят просто о «коэффициенте корреляции», почти всегда имеют в виду коэффициент корреляции Пирсона. Если возвести его в квадрат, то полученное значение коэффициента детерминации (r2) представляет долю вариации, общую для двух переменных (иными словами, степень зависимости или связанности двух переменных). Чтобы оценить зависимость между переменными, нужно знать как величину корреляции, так и ее значимость.

где X и Y — средние значения переменных X и Y. Выражение для r «симметрично» —поменяв местами X и Y, мы получим ту же величину. Коэффициент корреляции принимает значения от –1 до +1.

И все же, почему для описания тесноты связи нельзя воспользоваться только регрессионным анализом? В качестве меры тесноты связи можно было бы использовать остаточное стандартное отклонение. Однако если поменять местами зависимую и независимую переменные, то остаточное стандартное отклонение, как и другие показатели регрессионного анализа, будет иным. Получается, что связь роста с весом одна, а веса с ростом — другая. Асимметричность регрессионного анализа — вот что мешает непосредственно использовать его для характеристики силы связи. Коэффициент корреляции, хотя его идея вытекает из регрессионного анализа, свободен от этого недостатка.

После вычисления значения коэффициента корреляции необходимо проверить его значимость, насколько найденная зависимость или теснота связи статистически значима.

Животный жир и рак молочной железы

В опытах на лабораторных животных показано, что высокое со держание животного жира в рационе повышает риск рака молочной железы. Наблюдается ли эта зависимость у людей?

К. Кэррол собрал данные о потреблении животных жиров и смертности от рака молочной железы по 39 странам. Результат представлен на рис. 8.12А. Коэффициент корреляции между потреблением животных жиров и смертностью от рака молочной железы оказался равен 0,90. Оценим статистическую значимость корреляции.

Критическое значение t 0,001 при числе степеней свободы ν = 39 – 2 = 37 равно 3,574, то есть меньше полученного нами. Таким образом, при уровне значимости 0,001 можно утверждать, что существует корреляция между потреблением животных жиров и смертностью от рака молочной железы.

Теперь проверим, связана ли смертность с потреблением рас тительных жиров? Соответствующие данные приведены на рис. 8.12Б. Коэффициент корреляции равен 0,15. Тогда

Даже при уровне значимости 0,10 вычисленное значение t меньше критического. Корреляция статистически не значима.

Таким образом, риск рака молочной железы статистически значимо связан с потреблением животных, но не растительных жиров. Значит ли это, что животный жир способствует развитию рака молочной железы? Пока нет. Ведь обе рассматриваемые переменные могут зависеть от какой-то третьей. В обсервационном исследовании, каковым является работа Кэррола, такую возможность отвергнуть нельзя. Однако экспериментальные данные, о которых мы упомянули выше, — сильный аргумент в пользу именно причинно-следственной связи. Вообще истолкование результатов регрессионного и корреляционного анализа зависит от того, в каком исследовании были получены данные — обсервационном или экспериментальном. Если мы обнаружили связь переменных в обсервационном исследовании (простое наблюдение), то это не значит, что одна из них влияет на другую. Возможно, их согласованные изменения — результат действия какого-то неизвестного нам фактора. В экспериментальном исследовании, произвольно меняя одну из переменных, мы можем быть уверены, что связь, если она будет выявлена, является причинной. Впрочем, осторожность не помешает и в этом случае. В самом деле, трудно менять только одну переменную. Увеличивая содержание жира в рационе, мы либо увеличиваем общую калорийность, либо снижаем содержание белков и углеводов. Кто поручится, что канцерогенное действие оказывает именно жир, а не дисбаланс питательных веществ?

Соседние файлы в папке лаб № 3