- •Rodzaje badań statystycznych
- •Szeregi statystyczne
- •Szereg szczegółowy ważony
- •Szereg rozdzielczy
- •Rachunek prawdopodobieństwa
- •Rozkład prawdopodobieństwa skokowej zmiennej losowej X spełnia następujące warunki
- •Oczekiwana wartość I odchylenie standardowe zmiennej losowej
- •Wariancja I odchylenie standardowe zmiennej losowej
- •Twierdzenie Czebyszewa
- •Wybrane rozkłady zmiennej losowej skokowej
- •Rozkład jednopunktowy
- •Rozkład dwupunktowy
- •Rozkład dwumianowy
- •Średnia, wariancja I kształt rozkładu dwumianowego
- •Rozkład Poissona
- •Zmienna losowa ciągła I jej rozkłady
- •Rozkłady zmiennej losowej ciągłej
- •Rozkład chi – kwadrat
- •Rozkład t – Studenta
- •Rozkład f – Snedecora
- •Estymacja punktowa I przedziałowa
- •Pobieranie próby losowej
- •Trzy główne aspekty centralnego twierdzenia granicznego
- •Estymatory I ich własności
- •Estymacja przedziałowa parametrów
- •Weryfikacja hipotez statystycznych
- •Hipotezy alternatywne mogą być sformułowane względem hipotezy zerowej
- •Weryfikacja hipotez statystycznych Podstawowe pojęcia
- •Test dla dwóch średnich
- •Test dla wariancji
- •Test dla dwóch wariancji
- •Test dla wskaźnika struktury
- •Test dla dwóch wskaźników struktury
- •Parametryczne testy istotności – Przykłady
- •Testy nieparametryczne
- •Test zgodności - Kołmogorowa
- •Analiza korelacji I regresji .
- •Wyniki obserwacji pogrupowano I zamieszczono w poniższej tablicy
Wyniki obserwacji pogrupowano I zamieszczono w poniższej tablicy
Liczba punktów z matematyki xi |
Ocena ze statystyki yj |
Razem n i . |
||||
2 |
3 |
4 |
5 |
|||
20 - 24 |
1 |
6 |
2 |
- |
9 |
|
25 - 29 |
2 |
12 |
6 |
- |
20 |
|
30 - 34 |
- |
9 |
10 |
2 |
21 |
|
35 - 39 |
- |
6 |
5 |
2 |
13 |
|
40 - 44 |
- |
- |
4 |
1 |
5 |
|
Razem n . j |
3 |
33 |
27 |
5 |
68 |
Tablica przedstawia łączny rozkład liczby punktów z matematyki (X) i ocen ze statystyki (Y), czyli rozkład dwuwymiarowy. W ostatniej kolumnie znajduje się rozkład brzegowy punktów , czyli liczebności studentów ( n i . ) przyporządkowane poszczególnym klasom cechy X=xi . W ostatnim wierszu znajduje się rozkład brzegowy ocen ze statystyki , czyli liczebności studentów ( n . j ) przyporządkowane poszczególnym ocenom (Y=yj ) .
W kolumnach tablicy zawarte są rozkłady warunkowe liczby punktów X(Y=yj ) tzn. przy założeniu , że student otrzymał konkretną oceną. W wierszach znajdują się rozkłady warunkowe ocen Y(X=xi ) tzn. przy założeniu , że liczba punktów mieściła się w wyodrębnionej klasie .
Należy ustalić , czy badane zmienne są stochastycznie zależne ?
Średnie warunkowe ocen ze statystyki : ; ; ; ;
Wariancje warunkowe ocen ze statystyki : ; ; ; ;
Średnie warunkowe punktów z matematyki : ; ; ;
Wariancje warunkowe punktów z matematyki : ; ; ;
Analiza rozkładów warunkowych ocen ze statystyki wykazała , że zarówno średnie tych rozkładów , jak i wariancje różnią się między sobą . Taką samą prawidłowość stwierdzamy , analizując rozkłady warunkowe liczby punktów z matematyki . A zatem obie badane zmienne są stochastycznie zależne .
Obserwując zmiany średnich warunkowych jednej i drugiej cechy możemy stwierdzić , że między nimi istnieje związek korelacyjny dodatni , bowiem wzrost wartości jednej cechy łączy się ze zwiększeniem średnich warunkowych drugiej cechy.
Gdy związek badanych cech jest liniowy , to miarą współzależności jest współczynnik korelacji liniowej Pearsona . Jest on ilorazem miary łącznego zróżnicowania obu cech tzw. kowariancji , oraz iloczynu odchyleń standardowych każdej z cech.
Kowariancja jest średnią arytmetyczną iloczynem odchyleń wartości zmiennych X i Y ich średnich , co zapiszemy dla danych w szeregach :
dla danych w tablicy
Kowariancja pokazuje jedynie kierunek współzależności ( korelacja dodatnia , ujemna ) . Porównanie jej do iloczynu odchyleń standardowych daje miernik unormowany , przyjmujący wartości z przedziału < -1; +1>. Znak współczynnika korelacji informuje o kierunku związku, natomiast wartość bezwzględna o jego sile , a zatem :
r(xy) = -1 - oznacza , że między cechami istnieje związek funkcyjny ujemny
-1 < r(xy ) <0 - oznacza , że między cechami istnieje związek korelacyjny ujemny
r( xy ) = 0 - oznacza , że cechy są niezależne ( brak związku )
0 < r ( xy ) < 1 – oznacza , że między cechami istnieje związek korelacyjny dodatni
r ( xy ) = 1 – świadczy o istnieniu związku funkcyjnego dodatniego
Współczynnik Pearsona oblicza się według różnie przekształconych wzorów . Przy obliczeniach dokonanych na podstawie szeregów najczęściej stosowane są poniższe wzory :
gdzie :
- zaobserwowane wartości cechy X
- zaobserwowane wartości cechy Y
- kolejne pary obserwacji
, - średnie arytmetyczne
, - odchylenia standardowe
Niekiedy wygodnie jest korzystać ze wzoru o postaci :
Współczynnik korelacji podniesiony do kwadratu nazywa się współczynnikiem determinacji , informuje on , jaka część zmienności jednej z cech jest wyjaśniana kształtowaniem się drugiej cechy . Z kolei dopełnienie tego współczynnika do jedności tzw. współczynnik indeterminacji jest interpretowany jako ta część zmienności jednej z cech , która nie jest wyjaśniana przez drugą , a zatem może być spowodowana czynnikami nie ujętymi w badaniu .
Współczynnik korelacji Pearsona jest symetryczny , czyli przy jego obliczeniu nie ma potrzeby rozstrzygać , która cecha jest przyczyną , a która skutkiem . Jeżeli chcemy interpretować współczynnik determinacji , musimy zwracać uwagę na to , jakie powiązanie cech jest logicznie uzasadnione .
Dla danych pogrupowanych w tablicy korelacyjnej współczynnik korelacji obliczamy jako parametr ważony liczebnościami rozkładów warunkowych ( ni j ) . Wzór ma postać następującą :
gdzie :
- wartość cechy X ( i= 1,2,...,k )
- wartość cechy Y ( j= 1,2, ..., l )
W analizie współzależności ważnym zagadnieniem jest rozstrzygnięcie , czy korelacja stwierdzona w próbie ma także miejsce w populacji , z której pobrano próbę . W ocenie tego faktu może pomóc test istotności współczynnika korelacji Pearsona .
Założenia testu :
Badane zmienne ( X,Y ) populacji generalnej mają dwuwymiarowy rozkład normalny o nieznanym współczynniku korelacji . Z populacji tej wylosowano n – elementową próbę na podstawie której obliczono współczynnik korelacji .
Weryfikacja hipotezy zerowej :
Wobec hipotezy alternatywnej :
lub ,
Do weryfikacji hipotezy stosujemy :
test dla lub test dla n < 122
Przy założeniu prawdziwości hipotezy zerowej omawiane statystyki mają odpowiednio rozkład normalny N(0,1 ) oraz rozkład t- Studenta 0 n-1 stopniach swobody.
Funkcja regresji - to narzędzie do badania mechanizmu powiązań między zmiennymi . Funkcja regresji to analityczny wyraz przyporządkowania średnich wartości zmiennej zależnej konkretnym wartością zmiennej niezależnej . Wybór postaci analitycznej nie jest problemem łatwym .Wyboru postaci analitycznej dokonujemy :
na podstawie wstępnej analizy materiału statystycznego
wykresy rozrzutu
na podstawie źródeł poza statystycznych
Do opisu w sposób syntetyczny współzależności wykorzystuje się odpowiednie funkcje , które należy dopasować do smugi punktów przedstawionej na diagramie korelacyjnym . W praktyce przyjmuje się , że jeśli smuga punktów układa się wzdłuż linii prostej , to dopasowujemy do niej funkcję liniową , którą oznaczymy symbolem :
( 1 )
Współczynniki regresji szacuje się za pomocą metody najmniejszych kwadratów. MNK polega na takim oszacowaniu parametrów funkcji ( 1 ) , by dla danych z próby był spełniony warunek :
gdzie :
- oznaczają wartości empiryczne zmiennej Y
- oznaczają wartości teoretyczne wyznaczone na podstawie równania ( 1 )
Istotą MNK jest taki wybór wartości i dla których funkcja kryterium osiąga minimum. W tym celu obliczamy odpowiednie pochodne cząstkowe względem argumentów i przyrównujemy je do zera , a mianowicie :
( 2 )
Uwzględniając wprowadzone oznaczenia , układ równań (2) zapiszemy w postaci :
( 3 )
Układ równań (3) nazywa się układem równań normalnych . Rozwiązując układ równań można otrzymać wzory na wartość i .
Między współczynnikiem regresji a wartością wprowadzonego współczynnika korelacji istnieje ścisła zależność . Przekształcając odpowiednio wzór na obliczanie współczynnika otrzymamy :
=
Okazuje się , że współczynnik korelacji jest ściśle związany ze współczynnikiem liniowej funkcji regresji i dlatego nazywa się go liniowym współczynnikiem korelacji .
Oceny parametrów a0 i a1 są to estymatory nieobciążone i zgodne parametrów i .
Przedziały ufności dla parametrów regresji są następujące \:
Dla parametru
Dla parametru
gdzie :
, - estymatory parametrów i
- ocena standardowego błędu estymatora
- ocena standardowego błędu estymatora
- nieobciążony estymator wariancji składnika losowego, dany wzorem
- wartość statystyki t- Studenta odczytana z tablic rozkładu Studenta przy danym poziomie istotności i stopniach swobody
Gdy próba jest większa od 30 czyli n>30 , wówczas przedziały ufności dla parametrów regresji są następujące :
Dla parametru
Dla parametru
gdzie :
- odczytuje się z tablic dystrybuanty rozkładu normalnego
pozostałe oznaczenia jak wyżej
Test hipotezy o zachodzeniu liniowego związku między X a Y
Sprawdzianem zachodzenia liniowego związku między zmiennymi X i Y :
gdzie : - jest oceną ( estymatorem ) współczynnika kierunkowego linii regresji
- jest oceną standardowego błędu estymatora
Jeśli hipoteza zerowa jest prawdziwa to sprawdzian ma rozkład t o n-2 stopniach swobody . Sprawdzian t jest szczególnym przypadkiem sprawdzianu :
Jest on zbudowany zgodnie ze schematem : ocena parametru – hipotetyczna wartość parametru / ocena standardowego błędu estymatora .
test ze statystyki – odpowiedź –a
Zad. 1. Czy opis statystyczny oraz wnioskowanie statystyczne losowej próby krajów europejskich rozpatrywanych ze względu na rozmiary zadłużenia w 2001 roku dotyczą tej samej zbiorowości statystycznej
tak
nie
i tak i nie
trudno powiedzieć
Zad.2. W odpowiedzi na pytanie „ dlaczego korzystamy z Internetu „ Katedra Marketingu AE w Katowicach uzyskała m.in. następujące dane statystyczne : poszukiwanie informacji na własne potrzeby ( 80 %), komunikacja z innymi (75 % ), edukacja ( 58%), rozrywka (58,6%), praca/biznes ( 44,3 % ), zdobywanie informacji o produktach (40,5%), sposób spędzania wolnego czasu (37,5%), zakupy (9,2%). Czy liczby podane (w procentach) to :
częstości empiryczne
prawdopodobieństwa
miary opisowe
indywidualne dane statystyczne
Zad. 3. Który z aksjomatów A.N. Kołmogorowa jest pewnikiem tego, że prawdopodobieństwo zdarzenia niemożliwego jest równe zero:
pierwszy
drugi
trzeci
żaden
Zad.4. Poniższe dane dotyczą zatłoczenia ( liczby pieszych) w słynnych alejach handlowych w 13 wybranych miastach w dzień powszedni ( wtorek ) oraz dzień weekendowy ( sobota ) :
Lp. |
Nazwa miasta |
Liczba pieszych wtorek |
Liczba pieszych sobota |
1 |
Bruksela |
3792 |
3871 |
2 |
Genewa |
3182 |
3633 |
3 |
Hongkong |
10424 |
8752 |
4 |
Londyn |
8789 |
9239 |
5 |
Madryt |
4280 |
5250 |
6 |
Moskwa |
4289 |
1712 |
7 |
Nowy Jork |
7028 |
4586 |
8 |
Paryż |
10692 |
5511 |
9 |
Szanghaj |
2456 |
4104 |
10 |
Sydney |
6380 |
11890 |
11 |
Tokio |
6393 |
5067 |
12 |
Warszawa |
11892 |
14351 |
13 |
Zurych |
4672 |
5549 |
Czy pozycyjna asymetria rozkładu zatłoczenia w badanych miastach była w dzień powszedni i w sobotę taka sama oraz dodatnia :
nie ; tak
tak ; tak
tak, nie;
nie , nie ?
Zad. 5. Dla 52 wylosowanych gmin pewnego województwa zbadano rozmiary bezrobocia i uzyskano , że w 1999 roku średnia stopa bezrobocia wynosiła 8,2 % , z przeciętnym zróżnicowaniem 3,3 %. Czy precyzja na podstawie uzyskanych danych i przy 1- = 0,95 , oszacowanego przeciętnego poziomu stopy bezrobocia dla całego województwa pozwala na wnioskowanie :
bezpieczne
nie w pełni bezpieczne
zdecydowanie niebezpieczne
trudno powiedzieć ?
Zad.6. Na reprezentatywnej próbie losowej 1167 dorosłych Polaków na początku 2000 roku COBS przeprowadził sondaż opinii dotyczący zabezpieczenia finansowego na przyszłość. Uzyskano 35 % pozytywnych odpowiedzi. Z jakim względnym błędem precyzji, przy
1- = 90 , można by uogólnić ten wynik na całą populację dorosłych Polaków i ile należałoby osób wylosować do następnego badania , aby błąd precyzji nie przekroczył 3 %.
6,5 % ; 678
5,6 %; 876
0,65 % ; 76
0,065 % ; 927 ?
Zad. 7.Wpłaty 11 polskich banków ( w mln zł ) przeznaczone dla klientów upadłego Banku Staropolskiego były następujące : [ 136,4 114,7 33,5 28,5 26,7 26,0 23,6 21,7 18,6 16,7 16 ,7 ]. W oparciu o te dane, przyjmując poziom istotności =0,01, stwierdzić , czy przypuszczenie o przeciętnym przekazie wśród wszystkich banków w wysokości 30,0 mln zł należy :
nie odrzucić
odrzucić
przyjąć
brak decyzji ?
Zad.8. Firma budując nowy obiekt, musi przewidzieć miejsca na parkingu dla pojazdów pracowników i gości. Wśród 200 pracowników stwierdzono, że 150 z nich przyjeżdża do pracy samochodem. Przyjmując poziom istotności 0,05 sprawdzić przypuszczenie, że parking dla pracowników powinien stanowić 65 % powierzchni parkingowej . Czy decyzja taka byłaby :
jednoznaczna
niejednoznaczna
jednoznaczna, ale ...
niejednoznaczna , ale ... ?
Zad. 9. W związku ze zróżnicowaniem opinii o celowości budowy rożnej wielkości supermarketów zbadano zależność pomiędzy wielkością zakupów w średnich i dużych domach handlowych. Otrzymano m.in. informacje o średnim tygodniowym zakupie przeciętnego klienta :
w średnich supermarketach 200 zł , przy przeciętnym zróżnicowaniu bezwzględnym 50 zł,
w dużym 220 zł z przeciętnym zróżnicowaniem 200 zł
W pierwszym przypadku zbadano 1000 klientów, w drugim 3000 osób. Czy badaną zależność należy określić jako :
niewielką
umiarkowaną
wysoką
bardzo wysoką ?
Zad.10. W 1999 roku w porównaniu z 1998 r wartość eksportu dwóch towarów wzrosła o 50 mln zł. W omawianym okresie cena towaru I wzrosła o 8 % , a towaru II o 10 % . O ile przeciętnie wzrósł eksport z tytułu wzrostu cen, jeżeli w 1998 roku eksport towaru I osiągnął wartość 60 mln zł , a towaru II 80 mln zł :
9,1 %
10,91 %
109,1%
1% ?