Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
20080504182756.doc
Скачиваний:
9
Добавлен:
21.09.2019
Размер:
1.72 Mб
Скачать

Wyniki obserwacji pogrupowano I zamieszczono w poniższej tablicy

Liczba punktów z matematyki xi

Ocena ze statystyki yj

Razem

n i .

2

3

4

5

20 - 24

1

6

2

-

9

25 - 29

2

12

6

-

20

30 - 34

-

9

10

2

21

35 - 39

-

6

5

2

13

40 - 44

-

-

4

1

5

Razem n . j

3

33

27

5

68

Tablica przedstawia łączny rozkład liczby punktów z matematyki (X) i ocen ze statystyki (Y), czyli rozkład dwuwymiarowy. W ostatniej kolumnie znajduje się rozkład brzegowy punktów , czyli liczebności studentów ( n i . ) przyporządkowane poszczególnym klasom cechy X=xi . W ostatnim wierszu znajduje się rozkład brzegowy ocen ze statystyki , czyli liczebności studentów ( n . j ) przyporządkowane poszczególnym ocenom (Y=yj ) .

W kolumnach tablicy zawarte są rozkłady warunkowe liczby punktów X(Y=yj ) tzn. przy założeniu , że student otrzymał konkretną oceną. W wierszach znajdują się rozkłady warunkowe ocen Y(X=xi ) tzn. przy założeniu , że liczba punktów mieściła się w wyodrębnionej klasie .

Należy ustalić , czy badane zmienne są stochastycznie zależne ?

Średnie warunkowe ocen ze statystyki : ; ; ; ;

Wariancje warunkowe ocen ze statystyki : ; ; ; ;

Średnie warunkowe punktów z matematyki : ; ; ;

Wariancje warunkowe punktów z matematyki : ; ; ;

Analiza rozkładów warunkowych ocen ze statystyki wykazała , że zarówno średnie tych rozkładów , jak i wariancje różnią się między sobą . Taką samą prawidłowość stwierdzamy , analizując rozkłady warunkowe liczby punktów z matematyki . A zatem obie badane zmienne są stochastycznie zależne .

Obserwując zmiany średnich warunkowych jednej i drugiej cechy możemy stwierdzić , że między nimi istnieje związek korelacyjny dodatni , bowiem wzrost wartości jednej cechy łączy się ze zwiększeniem średnich warunkowych drugiej cechy.

Gdy związek badanych cech jest liniowy , to miarą współzależności jest współczynnik korelacji liniowej Pearsona . Jest on ilorazem miary łącznego zróżnicowania obu cech tzw. kowariancji , oraz iloczynu odchyleń standardowych każdej z cech.

Kowariancja jest średnią arytmetyczną iloczynem odchyleń wartości zmiennych X i Y ich średnich , co zapiszemy dla danych w szeregach :

dla danych w tablicy

Kowariancja pokazuje jedynie kierunek współzależności ( korelacja dodatnia , ujemna ) . Porównanie jej do iloczynu odchyleń standardowych daje miernik unormowany , przyjmujący wartości z przedziału < -1; +1>. Znak współczynnika korelacji informuje o kierunku związku, natomiast wartość bezwzględna o jego sile , a zatem :

r(xy) = -1 - oznacza , że między cechami istnieje związek funkcyjny ujemny

-1 < r(xy ) <0 - oznacza , że między cechami istnieje związek korelacyjny ujemny

r( xy ) = 0 - oznacza , że cechy są niezależne ( brak związku )

0 < r ( xy ) < 1 – oznacza , że między cechami istnieje związek korelacyjny dodatni

r ( xy ) = 1 – świadczy o istnieniu związku funkcyjnego dodatniego

Współczynnik Pearsona oblicza się według różnie przekształconych wzorów . Przy obliczeniach dokonanych na podstawie szeregów najczęściej stosowane są poniższe wzory :

gdzie :

- zaobserwowane wartości cechy X

- zaobserwowane wartości cechy Y

- kolejne pary obserwacji

, - średnie arytmetyczne

, - odchylenia standardowe

Niekiedy wygodnie jest korzystać ze wzoru o postaci :

Współczynnik korelacji podniesiony do kwadratu nazywa się współczynnikiem determinacji , informuje on , jaka część zmienności jednej z cech jest wyjaśniana kształtowaniem się drugiej cechy . Z kolei dopełnienie tego współczynnika do jedności tzw. współczynnik indeterminacji jest interpretowany jako ta część zmienności jednej z cech , która nie jest wyjaśniana przez drugą , a zatem może być spowodowana czynnikami nie ujętymi w badaniu .

Współczynnik korelacji Pearsona jest symetryczny , czyli przy jego obliczeniu nie ma potrzeby rozstrzygać , która cecha jest przyczyną , a która skutkiem . Jeżeli chcemy interpretować współczynnik determinacji , musimy zwracać uwagę na to , jakie powiązanie cech jest logicznie uzasadnione .

Dla danych pogrupowanych w tablicy korelacyjnej współczynnik korelacji obliczamy jako parametr ważony liczebnościami rozkładów warunkowych ( ni j ) . Wzór ma postać następującą :

gdzie :

- wartość cechy X ( i= 1,2,...,k )

- wartość cechy Y ( j= 1,2, ..., l )

W analizie współzależności ważnym zagadnieniem jest rozstrzygnięcie , czy korelacja stwierdzona w próbie ma także miejsce w populacji , z której pobrano próbę . W ocenie tego faktu może pomóc test istotności współczynnika korelacji Pearsona .

Założenia testu :

Badane zmienne ( X,Y ) populacji generalnej mają dwuwymiarowy rozkład normalny o nieznanym współczynniku korelacji . Z populacji tej wylosowano n – elementową próbę na podstawie której obliczono współczynnik korelacji .

Weryfikacja hipotezy zerowej :

Wobec hipotezy alternatywnej :

lub ,

Do weryfikacji hipotezy stosujemy :

test dla lub test dla n < 122

Przy założeniu prawdziwości hipotezy zerowej omawiane statystyki mają odpowiednio rozkład normalny N(0,1 ) oraz rozkład t- Studenta 0 n-1 stopniach swobody.

Funkcja regresji - to narzędzie do badania mechanizmu powiązań między zmiennymi . Funkcja regresji to analityczny wyraz przyporządkowania średnich wartości zmiennej zależnej konkretnym wartością zmiennej niezależnej . Wybór postaci analitycznej nie jest problemem łatwym .Wyboru postaci analitycznej dokonujemy :

  1. na podstawie wstępnej analizy materiału statystycznego

  2. wykresy rozrzutu

  3. na podstawie źródeł poza statystycznych

Do opisu w sposób syntetyczny współzależności wykorzystuje się odpowiednie funkcje , które należy dopasować do smugi punktów przedstawionej na diagramie korelacyjnym . W praktyce przyjmuje się , że jeśli smuga punktów układa się wzdłuż linii prostej , to dopasowujemy do niej funkcję liniową , którą oznaczymy symbolem :

( 1 )

Współczynniki regresji szacuje się za pomocą metody najmniejszych kwadratów. MNK polega na takim oszacowaniu parametrów funkcji ( 1 ) , by dla danych z próby był spełniony warunek :

gdzie :

- oznaczają wartości empiryczne zmiennej Y

- oznaczają wartości teoretyczne wyznaczone na podstawie równania ( 1 )

Istotą MNK jest taki wybór wartości i dla których funkcja kryterium osiąga minimum. W tym celu obliczamy odpowiednie pochodne cząstkowe względem argumentów i przyrównujemy je do zera , a mianowicie :

( 2 )

Uwzględniając wprowadzone oznaczenia , układ równań (2) zapiszemy w postaci :

( 3 )

Układ równań (3) nazywa się układem równań normalnych . Rozwiązując układ równań można otrzymać wzory na wartość i .

Między współczynnikiem regresji a wartością wprowadzonego współczynnika korelacji istnieje ścisła zależność . Przekształcając odpowiednio wzór na obliczanie współczynnika otrzymamy :

=

Okazuje się , że współczynnik korelacji jest ściśle związany ze współczynnikiem liniowej funkcji regresji i dlatego nazywa się go liniowym współczynnikiem korelacji .

Oceny parametrów a0 i a1 są to estymatory nieobciążone i zgodne parametrów i .

Przedziały ufności dla parametrów regresji są następujące \:

Dla parametru

Dla parametru

gdzie :

, - estymatory parametrów i

- ocena standardowego błędu estymatora

- ocena standardowego błędu estymatora

- nieobciążony estymator wariancji składnika losowego, dany wzorem

- wartość statystyki t- Studenta odczytana z tablic rozkładu Studenta przy danym poziomie istotności i stopniach swobody

Gdy próba jest większa od 30 czyli n>30 , wówczas przedziały ufności dla parametrów regresji są następujące :

Dla parametru

Dla parametru

gdzie :

- odczytuje się z tablic dystrybuanty rozkładu normalnego

  • pozostałe oznaczenia jak wyżej

Test hipotezy o zachodzeniu liniowego związku między X a Y

Sprawdzianem zachodzenia liniowego związku między zmiennymi X i Y :

gdzie : - jest oceną ( estymatorem ) współczynnika kierunkowego linii regresji

- jest oceną standardowego błędu estymatora

Jeśli hipoteza zerowa jest prawdziwa to sprawdzian ma rozkład t o n-2 stopniach swobody . Sprawdzian t jest szczególnym przypadkiem sprawdzianu :

Jest on zbudowany zgodnie ze schematem : ocena parametru – hipotetyczna wartość parametru / ocena standardowego błędu estymatora .

test ze statystyki – odpowiedź –a

Zad. 1. Czy opis statystyczny oraz wnioskowanie statystyczne losowej próby krajów europejskich rozpatrywanych ze względu na rozmiary zadłużenia w 2001 roku dotyczą tej samej zbiorowości statystycznej

  1. tak

  2. nie

  3. i tak i nie

  4. trudno powiedzieć

Zad.2. W odpowiedzi na pytanie „ dlaczego korzystamy z Internetu „ Katedra Marketingu AE w Katowicach uzyskała m.in. następujące dane statystyczne : poszukiwanie informacji na własne potrzeby ( 80 %), komunikacja z innymi (75 % ), edukacja ( 58%), rozrywka (58,6%), praca/biznes ( 44,3 % ), zdobywanie informacji o produktach (40,5%), sposób spędzania wolnego czasu (37,5%), zakupy (9,2%). Czy liczby podane (w procentach) to :

  1. częstości empiryczne

  2. prawdopodobieństwa

  3. miary opisowe

  4. indywidualne dane statystyczne

Zad. 3. Który z aksjomatów A.N. Kołmogorowa jest pewnikiem tego, że prawdopodobieństwo zdarzenia niemożliwego jest równe zero:

  1. pierwszy

  2. drugi

  3. trzeci

  4. żaden

Zad.4. Poniższe dane dotyczą zatłoczenia ( liczby pieszych) w słynnych alejach handlowych w 13 wybranych miastach w dzień powszedni ( wtorek ) oraz dzień weekendowy ( sobota ) :

Lp.

Nazwa miasta

Liczba pieszych

wtorek

Liczba pieszych

sobota

1

Bruksela

3792

3871

2

Genewa

3182

3633

3

Hongkong

10424

8752

4

Londyn

8789

9239

5

Madryt

4280

5250

6

Moskwa

4289

1712

7

Nowy Jork

7028

4586

8

Paryż

10692

5511

9

Szanghaj

2456

4104

10

Sydney

6380

11890

11

Tokio

6393

5067

12

Warszawa

11892

14351

13

Zurych

4672

5549

Czy pozycyjna asymetria rozkładu zatłoczenia w badanych miastach była w dzień powszedni i w sobotę taka sama oraz dodatnia :

  1. nie ; tak

  2. tak ; tak

  3. tak, nie;

  4. nie , nie ?

Zad. 5. Dla 52 wylosowanych gmin pewnego województwa zbadano rozmiary bezrobocia i uzyskano , że w 1999 roku średnia stopa bezrobocia wynosiła 8,2 % , z przeciętnym zróżnicowaniem 3,3 %. Czy precyzja na podstawie uzyskanych danych i przy 1-  = 0,95 , oszacowanego przeciętnego poziomu stopy bezrobocia dla całego województwa pozwala na wnioskowanie :

  1. bezpieczne

  2. nie w pełni bezpieczne

  3. zdecydowanie niebezpieczne

  4. trudno powiedzieć ?

Zad.6. Na reprezentatywnej próbie losowej 1167 dorosłych Polaków na początku 2000 roku COBS przeprowadził sondaż opinii dotyczący zabezpieczenia finansowego na przyszłość. Uzyskano 35 % pozytywnych odpowiedzi. Z jakim względnym błędem precyzji, przy

1- = 90 , można by uogólnić ten wynik na całą populację dorosłych Polaków i ile należałoby osób wylosować do następnego badania , aby błąd precyzji nie przekroczył 3 %.

  1. 6,5 % ; 678

  2. 5,6 %; 876

  3. 0,65 % ; 76

  4. 0,065 % ; 927 ?

Zad. 7.Wpłaty 11 polskich banków ( w mln zł ) przeznaczone dla klientów upadłego Banku Staropolskiego były następujące : [ 136,4 114,7 33,5 28,5 26,7 26,0 23,6 21,7 18,6 16,7 16 ,7 ]. W oparciu o te dane, przyjmując poziom istotności =0,01, stwierdzić , czy przypuszczenie o przeciętnym przekazie wśród wszystkich banków w wysokości 30,0 mln zł należy :

  1. nie odrzucić

  2. odrzucić

  3. przyjąć

  4. brak decyzji ?

Zad.8. Firma budując nowy obiekt, musi przewidzieć miejsca na parkingu dla pojazdów pracowników i gości. Wśród 200 pracowników stwierdzono, że 150 z nich przyjeżdża do pracy samochodem. Przyjmując poziom istotności 0,05 sprawdzić przypuszczenie, że parking dla pracowników powinien stanowić 65 % powierzchni parkingowej . Czy decyzja taka byłaby :

  1. jednoznaczna

  2. niejednoznaczna

  3. jednoznaczna, ale ...

  4. niejednoznaczna , ale ... ?

Zad. 9. W związku ze zróżnicowaniem opinii o celowości budowy rożnej wielkości supermarketów zbadano zależność pomiędzy wielkością zakupów w średnich i dużych domach handlowych. Otrzymano m.in. informacje o średnim tygodniowym zakupie przeciętnego klienta :

  • w średnich supermarketach 200 zł , przy przeciętnym zróżnicowaniu bezwzględnym 50 zł,

  • w dużym 220 zł z przeciętnym zróżnicowaniem 200 zł

W pierwszym przypadku zbadano 1000 klientów, w drugim 3000 osób. Czy badaną zależność należy określić jako :

  1. niewielką

  2. umiarkowaną

  3. wysoką

  4. bardzo wysoką ?

Zad.10. W 1999 roku w porównaniu z 1998 r wartość eksportu dwóch towarów wzrosła o 50 mln zł. W omawianym okresie cena towaru I wzrosła o 8 % , a towaru II o 10 % . O ile przeciętnie wzrósł eksport z tytułu wzrostu cen, jeżeli w 1998 roku eksport towaru I osiągnął wartość 60 mln zł , a towaru II 80 mln zł :

  1. 9,1 %

  2. 10,91 %

  3. 109,1%

  4. 1% ?