Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Анализ данных отчеты Катков / Практическая работа №5

.docx
Скачиваний:
25
Добавлен:
27.05.2015
Размер:
221.93 Кб
Скачать

1 Оценка коэффициента корреляции

Рассматриваются нормально распределенные случайные величины х и у – (x1, y1), (x1, y1), …, (xi, yi), …, (xL, yL). Выборочной оценкой коэффициента корреляции ρxyявляется случайная величина

(6)

где , – выборочные средние;

L– объем выборки;

σx, σy–среднеквадратическое отклонение случайных величин x иy соответственно.

Как и ρxy, Выборочный коэффициент корреляции лежит между –1 и +1 и принимает одно из граничных значений только при наличии функциональной линейной зависимости y=ax+b межу наблюдаемыми величинами x и y. Для независимых величин коэффициент корреляции равен нулю. Обратное утверждение не верно. Нелинейная связь и/или наличие ошибок измерения и помех приводят к уменьшению абсолютного значения коэффициента корреляцииrxy.

При малых значениях L(L< 15) лучшей оценкой коэффициента корреляции является:

. (7)

При L> 200 распределение выборочного коэффициента корреляции удовлетворительно аппроксимируется нормальным законом [1] со средним М(r) и дисперсией D(r):

; (8)

При L> 5 распределение случайной величины [3]

, (9)

удовлетворительно аппроксимируется нормальным распределением с параметрами

; . (10)

При L> 10 распределение случайной величины [3]

, (11)

удовлетворительно аппроксимируется распределением Стьюдента с f = L–2 степенями свободы.

Приведенные аппроксимации распределения выборочного коэффициента корреляции позволяют строить статистические критерии для проверки гипотез о существенности корреляционной связи и о возможных значениях коэффициента корреляции.

На практике наибольший интерес представляет задача проверки гипотезы о значимости корреляционной связи между случайными величинами, т. е. значимости отклонения коэффициента корреляции ρ от нуля. В принятых обозначениях проверяется нулевая гипотеза Н0: |ρ|=0 против альтернативы Н1: |ρ|≠0.

Эта гипотеза проверяется сравнением выборочного значения коэффициента корреляции r с его критическим значением rα, являющимся α-квантилью распределения r при ρ= 0. Корреляция между случайными величинами признается значимой, если |r|≥rαКритические значения rαприведены в таблице 1.

Таблица 1 – Критические значения rαвыборочного коэффициента корреляции для ρ= 0 [3].

L

Доверительная вероятность α

L

Доверительная вероятность α

0,90

0,95

0,99

0,90

0,95

0,99

3

0,988

0,997

1,000

13

0,476

0,553

0,684

4

0,900

0,950

0,990

14

0,457

0,532

0,661

5

0,805

0,878

0,959

15

0,441

0,514

0,641

6

0,729

0,811

0,917

16

0,426

0,497

0,623

7

0,669

0,754

0,874

17

0,412

0,482

0,606

8

0,621

0,707

0,834

18

0,400

0,468

0,590

9

0,582

0,666

0,798

19

0,389

0,456

0,575

10

0,549

0,632

0,765

20

0,378

0,444

0,561

11

0,521

0,602

0,735

21

0,369

0,433

0,549

12

0,497

0,576

0,708

22

0,360

0,423

0,537

Использование рассмотренных выше аппроксимаций приводит к следующим оценкам:

  • при L> 5

; (12)

  • при L> 10

; (13)

  • при L> 200

. (14)

Здесь tαи иαα-квантили распределения Стьюдента (таблица А.1 приложения А) с f = L–2 степенями свободы и стандартного нормального распределения (таблица А.2 Приложения А)соответственно.

Если гипотеза о значимости корреляции между случайными величинами не отклоняется, то можно построить доверительный интервал для истинного коэффициента корреляции по его выборочному значению. Впрочем, для корреляционного анализа это уже не столь важно, ибо его основная цель – установление значимости наблюдаемой связи.

Пример 1. В результате наблюдений над случайными величинами х и у(L= 10)получена совокупность данных (таблица 2).

Таблица 2 – Результаты наблюдений над случайными величинами х и у.

x

2

4

1

7

3

11

14

15

21

4

у

7

6

4

11

2

21

34

23

40

15

Необходимо проверить гипотезу о наличии корреляции между случайными величинами х и у с достоверностью α= 0,95.

Находим

Далее получаем оценки коэффициента корреляции

; .

Из таблицы 1 для L= 10 и α = 0,95 находим r0,95= 0,632.

Так как r(r*)=0,952 (0,958) >r0,95= 0,632, наличие зависимости между величинами х иуследует признать значимой с достоверностью α = 0,95.

Если воспользоваться аппроксимациями (имея в виду, что = 1,96),получим

что близко к точному значению r0,95= 0,632.

С помощью t-приближения получим ().

что совпадает с табличным значением.

Наконец, приближение для больших выборок дает

Важными статистическими характеристиками являются корреляционные функции, которые состоят из коэффициентов корреляции, определенных для произвольных фиксированных отсчетов 1= и 2= +λ, где λ – сдвиг между отсчетами двух случайных величин или одной случайной величины. Выборочную взаимнокорреляционную функцию (ВКФ) можно определитькак

, (15)

λ– сдвиг между отсчетами двух случайных величин х и у. ВКФ строят как для положительных сдвигов λ, так и для отрицательных.

Выборочная автокорреляционная функция(АКФ) – функция отражающая связь между различными отсчетами одной случайной величины:

. (16)

АКФ при нулевом сдвиге равняется 1, она симметричная, поэтому строится только для положительных сдвигов.

Выборочные ВКФ и АКФ являются состоятельными оценками корреляционных функций стационарного случайного процесса при некоторых условиях, обычно выполняющихся на практике[4].

Задание 1

  1. На диске Work в папке Анализ данных найти файл Данные для практических работ. Открыть новую книгу Excel и скопировать в нее данные (два ряда данных) для анализа в соответствии со своим вариантом. Для выполнения задания следует взять пару рядов первый и второй или первый и третий ряды.

  2. Рассчитать коэффициент взаимной корреляции и проверить гипотезу о наличии корреляции между случайными величинами с достоверностью α= 0,95.При расчете статистик – выборочного среднего, дисперсии использовать стандартные функции Excel СРЗНАЧ и ДИСП.В. Значение самого коэффициента корреляции рассчитать согласно формуле (6). Сравнить полученное значение с рассчитанным значением с помощью стандартной функции Excel КОРЕЛ.

  3. Построить взаимно корреляционную функцию для сдвигов λ =0, 1, 2, 3. Оформить результаты в таблице и построить график, например, как таблица 3 и рисунок 2.

Таблица 3 – Значения коэффициентов взаимной корреляции r(λ) при различных сдвигах λ.

λ

–3

–2

–1

0

1

2

3

r(λ)

0,3

–0,6

0,2

0,6

0,9

0,5

0,3

Рисунок 2 – Взаимно корреляционная функция

  1. Построить автокорреляционную функцию для сдвигов λ =0, 1, 2, 3.Оформить результаты в таблице и построить график, например, как таблица 4 и на рисунок 3.

Таблица 4 – Значения коэффициентов автокорреляции r(λ) при различных сдвигах λ.

λ

0

1

2

3

r(λ)

1

0,9

0,5

0,3

Рисунок 3 – Автокорреляционная функция

2 Частная и множественная корреляции

При необходимости исследования связи между тремя и более случайными величинами используются частные и множественные коэффициенты корреляции.

Частный коэффициент корреляции – числовая характеристика степени тесноты линейной связи между двумя случайными величинамиXiиXjиз совокупности случайных величинX1, X2, …,XN, когда исключено влияние остальных. Даже если удалось установить тесную зависимость между двумя исследуемыми величинами, это не дает основания утверждать их причинную связь. За счет эффектов одновременного влияния неучтенных факторов на исследуемые переменные может искажаться смысл истинной связи между переменными. Например, подсчеты приводят к отрицательному значению коэффициента корреляции между парой случайных величин, в то время как истинная связь между ними имеет положительныйхарактер. Такую корреляцию между двумя переменными часто называют «ложной». Расчет «очищенных» или частных коэффициентов корреляции позволяет обнаружить и исключить влияние неучтенных факторов или других величин рассматриваемой совокупности

Рассмотрим случай трех переменных – х, у и z(при числе переменных больше трех выражения для коэффициентов корреляции могут быть выписаны по аналогии).

Зависимость между двумя переменными х и упри фиксированной третьей переменной – z оценивается с помощью частного коэффициента корреляции ρху/z.По аналогии можно определить частные коэффициенты корреляции по остальным парам переменных ρхz и ρуz.

Выборочные частные коэффициенты корреляции определяются с помощью соотношений

; ;; (17)

rxy/z=ryx/z; ryz/x=rzy/x; ; rxz/y=rzx/y.

В случае, когда в совокупности более трех случайных величин, прежде чем рассчитать частные коэффициенты корреляции необходимо построить корреляционную матрицу. Корреляционная матрица представляет собой квадратную симметричную относительно главное диагонали матрицу, состоящую из парных коэффициентов корреляции, с единицами на главной диагонали.

(18)

Частные коэффициенты корреляции определяются по формуле

, (19)

где Rij, Rii, Rjj – алгебраические дополнения элементовrij, rii, rjj корреляционной матрицы соответственно.

Так же, как и простые парные коэффициенты корреляции, частные принимают значения от –1 до +1. Гипотеза Н0: rxy/z= 0 для коэффициента корреляции ρxy/z(для остальных аналогично) проверяется с помощью статистики

, (20)

где k– число переменных (в нашем случае k= 3).

При справедливости Н0величина tраспределена в соответствии с распределением Стьюдента при f= Lkстепенях свободы.

При |t>(Lk)нулевая гипотеза Н0отклоняется с вероятностью α.

Множественная корреляция исследуется в случае, когда необходимо установить существенность взаимосвязи одной переменной с совокупностью остальных. Множественный коэффициент корреляции – это числовая характеристика степени тесноты линейной связи между случайной величиной Xj и некоторым набором других случайных величин совокупности X1, X2, …,XN, т.е. одной случайной величиной и линейной комбинацией набора других.

Для случая трех случайных величин выборочные множественные коэффициенты корреляции обозначаются rx/yz, ry/xz, rz/xyи выражаются через парные коэффициенты корреляции с помощью соотношений

; (21а)

; (21б)

. (21в)

Между частными, множественными и обыкновенными парными коэффициентами корреляции имеют место, так называемые, контрольные соотношения:

; (22а)

; (22б)

. (22в)

Если в совокупности более трех случайных величин, то множественный коэффициент корреляции определяется по формуле

, (23)

где Δ – определитель корреляционной матрицы;

– алгебраические дополнение элемента rjj корреляционной матрицы.

Для проверки гипотезы Н0: ρх/yz = 0 используется статистика

, (24)

имеющая при справедливости Н0F-распределение с f1 = k – 1 и f1 = Lk степенями свободы (k– число переменных, в нашем случае k= 3).

Если F>Fα(f1, f2), то соответствующая корреляция признается значимой. Критическое значение коэффициента множественной корреляции равно

. (25)

Корреляция признается значимой при rx/yzrx/yz(α).Критические значения r1/23...k(для общего случая kпеременных) приведены в таблице 5.

Таблица 5 – Критические значения r1/23...k коэффициента множественной корреляции (k– число переменных, L– объем выборки)

Lk

Доверительнаявероятность α

0,95

0,99

k

k

3

4

5

6

3

4

5

6

1

0,999

0,999

0,999

1,000

1,000

1,000

1,000

1,000

2

0,975

0,983

0,987

0,990

0,995

0,997

0,997

0,998

3

0,930

0,950

0,961

0,968

0,977

0,983

0,987

0,990

4

0,881

0,912

0,930

0,942

0,949

0,962

0,970

0,975

5

0,836

0,874

0,898

0,914

0,917

0,937

0,949

0,957

6

0,795

0,839

0,867

0,886

0,886

0,911

0,927

0,938

7

0,758

0,807

0,838

0,860

0,855

0,885

0,904

0,918

8

0,726

0,777

0,811

0,835

0,827

0,860

0,882

0,898

9

0,697

0,750

0,786

0,812

0,800

0,837

0,861

0,878

10

0,671

0,726

0,763

0,790

0,776

0,814

0,840

0,859

11

0,648

0,703

0,741

0,770

0,753

0,793

0,821

0,841

12

0,627

0,683

0,722

0,751

0,732

0,773

0,802

0,824

13

0,608

0,664

0,703

0,733

0,712

0,755

0,785

0,807

14

0,590

0,646

0,686

0,717

0,694

0,737

0,768

0,791

15

0,574

0,630

0,670

0,701

0,677

0,721

0,752

0,776

16

0,559

0,615

0,655

0,687

0,662

0,706

0,738

0,762

17

0,545

0,601

0,641

0,673

0,647

0,691

0,724

0,749

18

0,532

0,587

0,628

0,660

0,633

0,678

0,710

0,736

19

0,520

0,575

0,615

0,647

0,620

0,665

0,697

0,723

20

0,509

0,563

0,604

0,636

0,607

0,652

0,685

0,712

22

0,488

0,542

0,582

0,614

0,585

0,630

0,663

0,690

24

0,470

0,523

0,562

0,594

0,565

0,609

0,643

0,669

26

0,454

0,506

0,545

0,576

0,546

0,590

0,624

0,651

28

0,439

0,490

0,529

0,560

0,529

0,573

0,607

0,633

30

0,425

0,476

0,514

0,545

0,514

0,557

0,591

0,618

40

0,373

0,419

0,455

0,484

0,454

0,494

0,526

0,552

60

0,308

0,348

0,380

0,406

0,377

0,414

0,442

0,467

Соседние файлы в папке Анализ данных отчеты Катков