Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
20080504182756.doc
Скачиваний:
8
Добавлен:
21.09.2019
Размер:
1.72 Mб
Скачать

Analiza korelacji I regresji .

Korelacja jest to współzależność , czyli wzajemne oddziaływanie lub współwystępowanie dwóch zjawisk lub cech tej samej zbiorowości .

Celem analizy współzależności jest stwierdzenie , czy między badanymi zmiennymi zachodzą jakieś zależności , jaka jest ich siła , kształt i kierunek.

Współzależność między zmiennymi może być :

  1. funkcyjna

  2. stochastyczna ( probabilistyczna)

Zależność funkcyjna – określonej wartości jednej zmiennej ( X – niezależnej – objaśniającej ) , odpowiada jedna i tylko jedna wartość drugiej zmiennej ( Y – zależna –objaśniana ). Zależność funkcyjna ( dokładna ) występuje w naukach przyrodniczych , natomiast w naukach społecznych mamy do czynienia z zależnością stochastyczną .

Zależność stochastyczna ( probabilistyczna ) – wraz ze zmianą jednej zmiennej , zmienia się rozkład prawdopodobieństwa drugiej zmiennej . Szczególnym przypadkiem tej zależności jest zależność korelacyjna ( statystyczna ) Polega na tym , że określonym wartościom jednej zmiennej odpowiadają ściśle określone średnie wartości drugiej zmiennej .

Statystyczny opis współzależności może mieć :

  • Formę tabelaryczną ( szeregi lub tablice )

  • Graficzną ( diagram korelacyjny )

  • Parametryczną w postaci odpowiedniej charakterystyki liczbowej.

Badanie współzależności dwóch cech ilościowych ( mierzalnych ) można przeprowadzić za pomocą tzw. analizy regresji prostej , która służy do określenia relacji między zmienną zależną i zmienną niezależną ( lub odwrotnie ) .

Korelacja między cechami mierzalnymi nosi nazwę kontyngencji , a tablice prezentujące takie dane noszą nazwę tablic kontyngencyjnych . Dla potrzeb wykazania zależności w tablicach kontygencyjnych stosuje się test niezależności . Test niezależności , znajduje zastosowanie zarówno dla korelacji cech mierzalnych jak i niemierzalnych .

Jeśli zbiorowość jest liczna , to wyniki obserwacji dwóch cech grupujemy w tablicy kombinowanej zwanej tablicą korelacyjną .

Tablica przedstawia rozkład dwuwymiarowy czyli łączy rozkład zbiorowości według dwóch cech .

Y=yj

X=xi

y1

y2

yj

yl

ni .

x1

n11

n12

...

n 1 j

...

n1 l

n 1 .

x2

n21

n22

...

n2 j

...

n 2 l

n 2 .

.

.

.

.

.

.

.

.

.

...

...

...

.

.

.

...

...

...

.

.

.

.

.

.

xi

ni1

ni2

...

nij

...

nil

ni .

.

.

.

.

.

.

.

.

.

...

...

...

.

.

.

...

...

...

.

.

.

.

.

.

xk

nk1

nk 2

...

nk j

...

nk l

nk .

n . j

n . 1

n . 2

...

n . j

...

n . l

n

W boczku tablicy znajdują się warianty cechy X=xi ( i = 1,2,...,k ), w główce tablicy znajdują się warianty cechy Y=yj ( j= 1,2, ..., l ). W polach na przecięciu wierszy i kolumn są umieszczone liczebności nij , oznaczające liczbę jednostek badanej zbiorowości posiadających i-ty wariant cechy X oraz j-ty wariant cechy Y. Suma liczebności zapisana w ostatnim wierszu ( n . j ) odnosi się do wariantów cechy Y , natomiast suma w ostatniej kolumnie ( n i . ) dotyczy wariantów cechy X.

Zachodzi równość : , gdzie oznacza ogólną liczebność badanej zbiorowości .

W tablicy korelacyjnej wyróżniamy rozkłady brzegowe i rozkłady warunkowe.

Rozkłady brzegowe pokazują rozłożenie obserwacji ( liczebności ) oddzielnie dla każdej z obu cech . W ostatniej kolumnie znajduje się rozkład brzegowy zmiennej X , natomiast w ostatnim wierszu – rozkład brzegowy zmiennej Y. Podstawowymi charakterystykami tych rozkładów są średnie arytmetyczne i wariancje , które obliczamy jako parametry ważone według wzorów :

,

,

Rozkłady warunkowe pokazują rozłożenie liczebności przy wartościach jednej cechy pod warunkiem , że druga przyjmie określoną wartość . W poszczególnych kolumnach mieszczą się zatem rozkłady warunkowe cechy X , co zapisujemy X ( Y = yj ), natomiast w poszczególnych wierszach znajdują się rozkłady warunkowe Y , czyli Y ( X = xi ).

Średnie i wariancje rozkładów warunkowych X ( Y = yj ) obliczamy dla poszczególnych kolumn ( j= 1, 2 ,..., l ) jako :

gdzie :

- wartość cechy X lub środki przedziałów

- liczebności zawarte w j-tej kolumnie

Średnie i wariancje rozkładów warunkowych Y ( X = xi ) obliczamy dla poszczególnych wierszy ( i=1,2,...,k ) jako :

gdzie : - wartości cechy Y lub środki przedziałów ;

- liczebności zawarte w i- tym wierszu

Średnie i wariancje rozkładów warunkowych pozwalają określić rodzaj związku między badanymi zmiennymi. Rodzaje związku między zmiennymi to :

  • Niezależność stochastyczna między zmienny istnieje wtedy , gdy zmieniającym się wartościom jednej cechy towarzyszą takie same rozkłady warunkowe drugiej cechy , co wyraża się równością parametrów rozkładów warunkowych cechy X i cechy Y.

  • Związek stochastyczny między zmiennymi istnieje wtedy , gdy zmieniającym się wartością jednej cechy towarzyszą istotnie różne rozkłady warunkowe drugiej cechy .

  • Związek korelacyjny ( statystyczny ),– związek korelacyjny istnieje , jeżeli zmieniającym się wartościom jednej cechy towarzyszą zmiany średnich warunkowych drugiej.

Jeżeli zmiany te mają zgodny kierunek , tzn. rosnącym wartościom jednej cechy odpowiada wzrost średnich warunkowych drugiej cechy , mamy do czynienia z korelacją dodatnią , natomiast gdy rosnącym wartościom cechy odpowiadają malejące średnie warunkowe drugiej cechy , mówimy o korelacji ujemnej.

Przykład 1. W zbiorowości studentów II roku kierunku Informatyka i Ekonometria AE w Katowicach , którzy przystąpili do egzaminu ze statystyki w czerwcu 2001 roku i odnotowano dwie cechy :

  1. ocenę na egzaminie ze statystyki

  2. liczbę punktów otrzymanych na egzaminie z matematyki