Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
malyuzhenko_m_v_statistika_oporni_lekci.doc
Скачиваний:
7
Добавлен:
08.05.2019
Размер:
696.32 Кб
Скачать

7. Оцінка узгодженості варіації атрибутивних ознак.

Соціальні явища характеризуються не тільки кількісними, але і якісними ознаками, які не можна порівнювати за величиною. Варіанти якісних ознак просто фіксуються.

ПРИКЛАД – населення характеризується різними якісними ознаками: рівнем освіти, національністю, професіями, соціальним статусом, статтю… Підприємства характеризуються: формою власності, приналежністю до певної галузі, видами діяльності…

Виявляється, що зв’язок може існувати і між якісними ознаками. При цьому не спостерігається узгоджена зміна величини ознаки (зростає фактор – зростає і результат), бо якісні ознаки не зростають і не зменшуються. Вони просто стрибком змінюються. Але при цьому може спостерігатись наступна закономірність – певне значення однієї ознаки переважно зустрічаються тільки з конкретним значенням іншої. Ніби між ціми варіантами ознак існує більш, або менш виражене взаємне тяжіння.

При кількісних ознаках таке “тяжіння” призводить до узгодженої зміни середніх рівнів фактору і результату. При якісних ознаках відбувається своєрідний перерозподіл елементів в самій сукупності.

ПРИКЛАД – досліджується певний колектив (100 осіб) стосовно двох ознак: національність і освіта. Картина може бути двох принципово різних видів:

А)

Національність

Освіта

Разом

Середня

Вища

Наукова ступінь

1

Українці

24

12

4

40

2

Росіяни

24

12

4

40

3

Вірмени

6

3

1

10

4

Євреї

6

3

1

10

Разом

60

30

10

100

Б)

Освіта

Разом

Середня

Вища

Наукова ступінь

Українці

26

12

2

40

Росіяни

26

12

2

40

Вірмени

7

0

3

10

Євреї

1

6

3

10

Разом

60

30

10

100

Кожна ознака розбиває сукупність на відповідні групи. Ознаку, що вважаємо за фактор розташуємо у підметі таблиці. Таблиці, в яких наведений розподіл сукупності по атрибутивним ознакам називаються таблицями співзалежності (ТС).

Різниця у цих таблицях криється у характері розподілу сукупності – підсумкові значення в обох таблицях однакові, а фактичні розрізняються. Ця різниця може бути більшою, або меншою.

Якщо українців у загальному колективі 40% і одночасно їх 40% серед людей з середньою освітою, і 40% серед людей з вищою освітою, і 40% серед людей з науковим ступенем, то це означає, що українці мають однакову питому вагу у кожній групі, що відповідає певному значенню освіти. Тобто українці не тяготіють до якогось окремого рівня освіти. Такий розподіл має назву пропорційного.

Якщо ж спостерігається, що в той час, коли українців у колективі 40%, а серед людей з середньою освітою їх 43%, а серед людей з науковим ступенем їх тільки 20%, то це означає, що українці намагаються освітою себе не обтяжувати. Ця національність “тяжіє” до середньої освіти. Зрозуміло, що коли українці займуть непропорційно багато місця в середній освіті, то це означає, що вони тим самим звільняють місця для інших національностей наприклад у вищій освіті. Тоді якась інша національність буде “тяжіти” більшого рівня освіти. І чим сильніше виражене це “національне тяжіння”, цей дисбаланс, тим зв’язок між ознаками вважається більш сильним. В наведеному прикладі це означає, що серед вчених ми маємо більше шансів натрапити на єврея, ніж на українця, а серед селян навпаки. Якщо різні національності по різному концентруються в наведених “освітніх” групах, то ця різниця чимось викликається – тобто є зв’язок між ознаками.

Щоб встановити наскільки цей зв’язок суттєвий вимірюють вищевказаний дисбаланс між ознаками. Вимір цього дисбалансу полягає у інтегруванні (накопиченні) відхилень фактичних частот в розподілі сукупності і пропорційних частот..

Якби рівень освіти не залежав від національності, то розподіл був би пропорційним:

Fij = fio fio /n

fio, fio – підсумкові частоти за відповідними ознаками.

Коли ж така залежність є , то фактичні частоти fij якось відрізняються від пропорційних fij ≠ Fij. І чим сильніша ця відмінність тим цей зв’язок суттєвіший.

Загальною характеристикою абсолютних відхилень фактичних частот від пропорційних є так званий критерій хі-квадрат Пірсона.

χ² = ΣΣ(fij – Fij) ²/F²ij =n[ΣΣ f²ij / fio fio ]

За відсутності стохастичного зв’язку χ² =0.

Аналогічно до всіх методів статистичного виміру зв’язку тут теж є небезпека такої ситуації, коли при дійсній залежності між двома ознаками в окремій сукупності фактичні частоти випадково дали пропорційний розподіл. Таку можливість заперечувати не можливо.

ПРИКЛАД.

К. Пірсон досліджував ймовірність виникнення таких випадків. Їх врахування виконується за допомогою критичних значень χ² для заданої ймовірності помилки (помилка полягає у тому, що ми вважаємо зв’язок відсутнім там, де він насправді є, і, навпаки, суттєвим, де його нема). Критичні значення χ² для певної ймовірності і числа ступенів свободи розраховані і наведені у спеціальних таблицях.

Число ступенів свободи для випадку атрибутивних ознак дорівнює: k = (mx-1)(my-1)

mx- кількість груп за факторною ознакою;

my – кількість груп за результативною ознакою;

k

1

2

3

4

5

6

7

8

χ²

3,84

5,99

7,81

9,49

11,07

12,59

14,07

15,51

Відносною мірою щільності стохастичного зв’язку є коефіцієнт співзалежності Чупрова:

C = √ χ² / n √ (mx-1)(my-1)

Або Крамера:

C = √ χ² / n (mmin-1)

Ці коефіцієнти приймають значення від 0, при відсутності зв’язку, до 1 при функціональному зв’язку.

Якщо обидві ознаки, що досліджуються на залежність можуть приймати тільки два значення (обидві є альтернативними), то при пропорційному розподілі сукупності за цими ознаками добутки діагональних частот будуть однаковими:

f11f22 = f12f21.

В цьому неважко переконатись, якщо врахувати, що пропорційна частота це добуток двох підсумкових, поділений на загальну чисельність сукупності.

ПРИКЛАД – відношення до паління в залежності від статі:

Палять

Не палять

Всього

Палять

Не палять

Всього

Чоловіки

8

12

20

Чоловіки

15

5

20

Жінки

32

48

80

Жінки

25

55

80

Всього

40

60

100

Всього

40

60

100

Тому для двох альтернативних ознак вимір зв’язку грунтується на відхиленнях добутків діагональних частот:

n (f11f22-f12f21) ²

χ² = ___________________

fo1fo2f1of2o

Для 4-х клітинкової ТС коефіцієнт С має назву коефіцієнта контингенції . І оскільки в цьому випадку число ступенів свободи дорівнює одиниці (k = 1) формули і Чупрова і Крамера приймають ідентичний вигляд:

C = √χ²/n

C² n = χ²

Для 4-х клітинкової ТС вводять додаткову характеристику – відношення шансів. Ця величина характеризує у скільки разів ймовірність зустріти першу результативну ознаку більша у першій факторній групі ніж у другій. Відношення шансів –це відношення перехресних добутків:

W = f11f22 / f12f21

В наведеному вище прикладі для лівої таблиці ймовірність зустріти того хто палить серед чоловіків 8/20 і ймовірність не зустріти 12/20. Шанси зустріти перевищують шанси не зустріти у (8/20) /(12/20) разів. Для жінок аналогічне співвідношення становить (32/80)/(48/80) разів. Для відповіді на питання у скільки разів імовірніше зустріти тих, хто палить більша серед чоловіків, ніж серед жінок треба ці дві величини поділити між собою.

(Лекція 13)

Небагато людей живе сьогоденням.

Більшість готується жити пізніше.

Д. Свіфт.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]