Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Рабочая книга социолога.doc
Скачиваний:
6
Добавлен:
03.11.2018
Размер:
5.22 Mб
Скачать

5. Нормальное распределение. Статистические гипотезы

Адекватное применение количественных методов, вошедших в практику социологических исследований, в той или иной степени опирается на предположение, что изучаемый признак (или сово­купность признаков) подчиняется определенному статистическому закону распределения. Таким наиболее часто встречающимся рас­пределением является нормальный закон, представление о котором дано здесь в очень кратной форме.

Вторая группа вопросов, рассмотренных в этом разделе, связана с проверкой гипотез. Можно выделить две функции статистических процедур: во-первых, это описание элементов совокупности, во-вто­рых, помощь исследователю в принятии некоторых решений о них. В предыдущих разделах этой главы их рассмотрение было связано с дескриптивной функцией статистики. Здесь же кратко описаны основные понятия и принципы статистического вывода.

Нормальное распределение. Наиболее широко известным теоре­тическим распределением является нормальное, или гауссовское, распределение. Нормальное распределение признака наблюдается в тех случаях, когда на величину его значений действует множество случайных независимых или слабозависимых факторов, каждый из которых играет в общей сумме примерно одинаковую и малую роль (т. е. отсутствуют доминирующие факторы), Функция плотности гауссовского распределения имеет вид

где 2 — дисперсия случайной величины (2 — это теоретическая дисперсия, отличающаяся от s2, вычисляемой по выборочным дан­ным); — среднее значение (математическое ожидание) (рис. 7).

В практических расчетах часто используется так называемое правило трех сигм, которое заключается том, что лишь 0,26% всех значений нормально распределенного признака лежат вне ин­тервала ±3, т. е. почти все значения признака укладываются в интервале из шести сигм (рис. 8).

Статистические гипотезы. Статистической называют гипотезу о виде неизвестного распределения либо о параметрах известных рас­пределений88. Так, статистической будет гипотеза о том, что пере­менная в генеральной совокупности распределена по нормальному закону. Проверяемую гипотезу называют нулевой (основной) гипоте­зой и обозначают Но. Наряду с нулевой рассматривается конкури­рующая гипотеза /Л (альтернативная), которая ей противоречит.

Статистический критерий и проверка гипотез. Для проверки ну­левой гипотезы используется специально подобранная случайная величина, точное, либо приближенное распределение которой из­вестно и обычно сведено в таблицы. Эта величина называется ста­тистическим критерием. Обозначим его пока К.

Для критерия К фиксируется так называемая критическая об­ласть, т. е. совокупность значений критерия, при которых нулевую гипотезу отвергают. Точка Kкр называется критической, если она отделяет критическую область от области принятия гипотезы.

Различают правостороннюю, левостороннюю и двустороннюю критические области.

Принятие или отверженце гипотезы производится на основе со­ответствующего статистического- критерия с определенной вероятно­стью. Считают, что пулевая гипотеза справедлива, если вероятность того, что критерий К примет значение, большее Kкр, т. е. попадет в критическую область, равна выбранному значению вероятности , т. е.

(для правосторонней области);

(для левосторонней области);

(для двусторонней области).

Принятая вероятность называется уровнем значимости.

Практически принятие или отвержение нулевой гипотезы прово­дится следующим образом: выбирается соответствующий критерий (этот вопрос будет обсуждаться далее); вычисляется наблюдаемое значение критерия KH, исходя из эмпирического распределения; вы­бирается уровень статистической значимости (обычно 0,05 или 0,01).

По таблице распределения критерия К для данного уровня зна­чимости находят критическую точку Kкр. Если KH>Kкр, нулевую гипотезу отвергают, если же KH<Kкр, то ее отвергать нет основа­ния.

Делая такие выводы (т. е. принимая или отвергая гипотезу), можно совершить ошибки двух типов: отвергнуть гипотезу, когда она верна; принять ее, когда она неверна. Поэтому при принятии гипотезы было бы неверным считать, что она тем самым полно­стью доказана. Для большей уверенности необходимо ее проверять другими способами (например, увеличить объем выборки).

Отвергают гипотезу более категорично, чем принимают.

Примеры статистических гипотез: а) нормальное распределение имеет заданное среднее и дисперсию либо имеет заданное среднее (о дисперсии ничего не говорится); б) распределение нормальное либо два неизвестных распределения одинаковы.

В качестве критериев чаще всего используются случайные ве­личины, распределенные нормально (2—критерий), по закону Фи­шера (Fкритерий Фишера), по закону Стьюдента (критерий Стьюдента), по закону хи-квадрат (критерий 2) и т. д.

В качестве конкретного примера рассмотрим применение крите­рия хи-квадрат для проверки гипотезы о виде распределения изу­чаемого признака.

Критерий хи-квадрат. Популярность критерия хи-квадрат обус­ловлена главным образом тем, что применение его не требует пред­варительного знания закона распределения изучаемого признака. Кроме того, признак может принимать как непрерывные, так и дискретные значения,, причем измеренные хотя бы на поминальном уровне.

Если закон распределения признака неизвестен, по есть основа­ния предположить, что он имеет определенный вид А, то критерий 2 позволяет проверить гипотезу: исследуемая совокупность распре­делена по закону А. Для проверки такой гипотезы сравниваются эмпирические (наблюдаемые) и теоретические (вычисленные в пред­положении определенного распределения А) частоты. Выпишем эти частоты:

Значения признака

x1

x2

...,

xk

Эмпирические частоты

n1

n2

...,

nk

Теоретические частоты

...,

Как правило, эмпирические и теоретические частоты будут раз­личаться. Возможно, что наблюдаемое различие случайно (стати­стически незначимо) и объясняется либо малым числом наблюде­ний, либо способом их группировки, либо иными причинами. Но возможно, что расхождение частот значимо и объясняется тем, что теоретические частоты вычислены исходя из неверной гипотезы о характере распределения значений рассматриваемых признаков, генеральной совокупности. Критерий 2 отвечает на вопрос, случай­но или нет такое расхождение частот. Как любой критерий, 2 не доказывает справедливость гипотезы, а лишь с определенной веро­ятностью а устанавливает ее согласие или несогласие с данными наблюдениями.

Критерий 2 имеет вид

(17)

Критическая точка распределения 2 находится; (см. табл. Б прило­жения) по заданному уровню значимости , и числу степеней свободы df. Число степеней свободы находят по формуле

,

где k — число интервалов вариационного ряда; r число парамет­ров предполагаемого распределения, которые оценены по данным выборки (например, для нормального распределения оценивают два параметра: и s2).

Рассмотрим пример, когда признак оценивался в терминах очень низкий, средний), очень высокий и был получен сле­дующий ряд распределения для этих трех категорий:

Очень низкий

Средний

Очень высокий

5

10

9

Проверим гипотезу о том, что в генеральной совокупности зна­чения этого признака распределены равномерно.

Теоретическое распределение для этих групп получим, если предположим, что эти категории независимы, т. е. респондент с одинаковой вероятностью может попасть в любую группу. Очевид­но, ожидаемая (теоретическая) частота будет равна 24/3 = 8 че­ловек.

Таким образом, имеем следующие эмпирические и теоретические частоты:

5

10

9

8

8

8

Проверяется гипотеза, что число респондентов во всех трех катего­риях одинаково, т. е. отличие распределения от равномерного ста­тистически незначимо.

Вычислим величину по формуле (17):

По таблице распределения 2, например, для уровня значимости 0,05 и степени свободы, равном df = 3 – 1 = 2, находим критиче­скую точку . Таким образом, наблюдаемое значение 2 меньше , следовательно, данные наблюдений согласуются с нулевой гипотезой и не дают оснований ее отвергнуть.

Хи-квадрат-критерий применим и для проверки нулевой гипо­тезы об отсутствии связей между признаками в случае, если эмпи­рические данные сгруппированы не по одному, как выше, а по не­скольким признакам. Например, пусть имеется выборка в 190 чело­век, чье мнение относительно какого-то определенного вопроса ис­следовалось (табл. 5). Расчленим эту выборку па три независимых категории по возрасту. Рассмотрим следующие гипотезы: Н0 не существует различия мнений относительно этого вопроса среди раз­личных возрастных групп; Н1 существует различие. Проверим гипотезу для уровня значимости = 0,05.

Таблица 5. Пример для вычисления 2

Ответ

Возраст опрашиваемого

Всего

более 40

25-40

менее 25

Категорически не согласен

Не согласен

Согласен

Полностью согласен

Всего

(а)18

(г)23

(а)11

(л)8

60

(б)13

(д)13

(и)14

(м)16

56

(в)10

(ж)12

(к)23

(н)29

74

41

48

48

53

190

Для нахождения ожидаемой (теоретической) частоты в любой плетке таблицы необходимо просто перемножить соответствующие маргинальные частоты и разделить произведение на итоговую сум­му. Например, ожидаемая частота для клетки (а) равна

Процедуру вычисления представим в табл. 6. Число степеней свободы определяется по формуле

где r — число строк, а с — число столбцов в табл. 5.

Для нашего примера df = (4—1)(3—1) == 6. По табл. Б прило­жения находим, что 2 = 16,812. Следовательно, нужно отвергнуть гипотезу о том, что нет различий в мнении среди неодинаковых возрастных групп, т. е. можно предположить, что существует зна­чимая статистическая взаимосвязь между тем, к какой возрастной группе принадлежит респондент, и тем мнением, которое он выска­зывает. Однако величина 2 не говорит о силе связи между перемен­ными, а лишь указывает на вероятность существования такой свя­зи. Для определения интенсивности связи необходимо использо­вать соответствующие меры связи.

Для корректного применения методов, основанных на 2, иссле­дователь должен обеспечить выполнение следующих условий. Вы­борку необходимо получить из независимых наблюдений. Данные могут быть измерены на любом уровне, по ни одна из ожидаемых частот не должна быть слишком мала (минимум 5). Если же часто­ты оказываются менее 5, то необходимо либо уменьшить степень дробности группировки признаков, объединив соседние категории, либо обратиться к другому критерию89.

Таблица 6. Схема вычисления 2

Ячейка (табл. 5)

Частота

Ожидаемая частота

а

б

в

г

д

ж

з

и

к

л

м

н

18

13

10

23

13

12

11

14

23

8

16

29

12,9

12,1

16,0

15,2

14,1

18,7

15,2

14,1

18,7

16,7

15,6

20,6

5,1

0,9

6,0

7,8

1,1

6,7

4,2

0,1

4,3

8,7

0,4

8,4

26,01

0,81

36,00

60,84

1,21

44,89

17,64

0,01

18,49

75,69

0,16

70,56

2,016

0,067

2,250

4,003

0,086

2,400

1,160

0,001

0,989

4,532

0,010

3,425