Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

prikl_stat_konspekt_tereschenko

.pdf
Скачиваний:
31
Добавлен:
01.03.2016
Размер:
471.26 Кб
Скачать

Меры связи. Для измерения направленных и ненаправленных связей разрабатываются специальные коэффициенты – меры связи. Меры ненаправленной связи изменяются в интервале [0; 1]; значения, близкие к 0, свидетельствуют об отсутствии связи, близкие к 1 – о сильной связи. Меры направленной связи изменяются в интервале [–1; +1]; значения, близкие к 0, свидетельствуют об отсутствии связи, близкие к +1 – о сильной прямой (положительной) связи, близкие к –1 – о сильной обратной (отрицательной) связи.

Тема 16. Исследование связи по таблице сопряженности

Таблица сопряженности – наиболее универсальное средство исследования статистических связей – представляет совместное распределение двух переменных. Строки таблицы образуются значениями одной переменной. Столбцы таблицы образуются значениями второй переменной. В клетке таблицы на пересечении строки с номером i и столбцаc номером j указывается частота совместного появления соответствующих значений fi, j . Суммы

частот по строке или по столбцу называются маргинальными частотами.

Распределения маргинальных частот представляют собой одномерные рас-

пределения переменных.

Таблица сопряженности может быть построена для дискретных переменных (номинальных, порядковых, количественных), а также для непрерывных переменных, сгруппированных в интервалы.

Следует избегать ситуаций, когда частоты в клетках таблицы слишком малы (за исключением тех случаев, когда отдельные категории объектов отсутствуют в принципе – например, женщины-охранники). Для повышения частот в клетках значения переменных рекомендуется группировать.

В таблице сопряженности могут быть представлены как абсолютные, так и относительные частоты (по столбцу, по строке или от объема выборки).

Гипотеза о статистической значимости связи между строками и столб-

цами таблицы сопряженности:

H0 : fij = eij (связи между переменными нет) H1 : fij eij (связь между переменными есть)

Проверка гипотезы осуществляется по критерию χíàáë2 = ∑∑r c (fi, j ei, j )2 fi. f. j ,

i =1 j =1

где i – номер строки в таблице; r – количество строк в таблице; j – номер столбца в таблице;

с – количество столбцов в таблице;

fi, j – наблюдаемая частота в клетке таблицы; fi. – маргинальная частота строки с номером i; f. j – маргинальная частота столбца с номером j;

ei, j = fi. f. j n – ожидаемая (теоретическая) частота, вычисленная в предпо-

ложении статистической независимости переменных; n – объем выборки.

О.В. Терещенко 2011

21

Гипотеза о наличии связи ( H1 ) принимается, если χíàáë2 > χ12-α , где χ12α – граница критической области.

Меры связи для таблиц сопряженности выбираются в зависимости от размеров таблицы и уровня измерений входящих в нее переменных.

Если обе переменные количественные, используется коэффициент линей-

ной связи Пирсона: r =

(xi x)(yi y)

(xi x)2

.

 

(yi y)2

Если обе переменные порядковые или количественные, используется ко-

эффициент ранговой корреляции Спирмана: rs =1

6(xi yi )2

 

.

n(n 2 1)

Если обе переменные дихотомические, используется коэффициент Φ («фи»):

Φ = f11 f 22 f12 f 21 . (f11 + f12 )(f 21 + f 22 )(f11 + f 21 )(f12 + f 22 )

Все вышеперечисленные коэффициенты являются направленными и измеряют прямые и обратные связи.

Во всех остальных случаях выбор коэффициента зависит от формы таблицы. Если таблица является квадратной (количество строк равно количеству

столбцов), используется коэффициент ϕ («фи») ϕ = χ 2 n .

Если таблица не является квадратной, используется коэффициент Крамера:

V =

χ2

n ×min(r 1; c 1).

Коэффициенты ϕ и Крамера являются ненаправленными мерами связи.

Тема 17. Линейная статистическая модель парной связи

Для исследования связи между двумя количественными переменными наиболее часто используют линейную модель y = bx +b0 . Если между двумя

переменными существует линейная связь, то при увеличении значения переменной x значение переменной y пропорционально увеличивается (прямая,

положительная связь) или уменьшается (обратная, отрицательная связь).

Определить, существует ли связь между переменными и является ли она линейной, прямой или обратной, проще всего по диаграмме рассеяния.

Current Salary

140000

 

 

 

 

 

 

 

 

120000

 

 

 

 

 

 

 

 

100000

 

 

 

 

 

 

 

 

80000

 

 

 

 

 

 

 

 

60000

 

 

 

 

 

 

 

 

40000

 

 

 

 

 

 

 

 

20000

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

6

8

10

12

14

16

18

20

22

Educational Level (years)

О.В. Терещенко 2011

22

Линейная связь является полной, если все точки диаграммы рассеяния лежат на прямой y = bx +b0 ; сильной или тесной, если облако точек достаточно

прилегает к прямой достаточно близко; слабой, если облако точек по отношению к прямой y = bx +b0 широко разбросано.

Коэффициент b называется коэффициентом регрессии и вычисляется по формуле:

n (xi x)(yi y)

b =

i =1

 

.

n

 

 

(xi

 

)2

 

x

 

i=1

 

 

 

 

Коэффициент регрессии показывает, насколько, в среднем, увеличится или уменьшится значение зависимой переменной y при увеличении значения независимой переменной x на 1. Знак коэффициента регрессии совпадает со знаком коэффициента корреляции; равенство значения коэффициента нулю свидетельствует об отсутствии линейной связи между переменными.

Коэффициент b0 называется свободным членом уравнения регрессии и вы-

числяется по формуле b0 = y bx ; во большинстве задач он не интерпретиру-

ется.

Теснота (сила) линейной связи измеряется с помощью коэффициента линейной корреляции Пирсона.

Качество уравнения парной регрессии, его объясняющая способность измеряется коэффициентом детерминации r 2 . Коэффициент детерминации показывает, какая доля дисперсии (изменчивости) зависимой переменной y объясняется влиянием независимой переменной x .

Тема 18. Анализ нелинейных статистических связей

Если между двумя количественными переменными наблюдается связь, которая не может быть достаточно хорошо описана уравнением линейной регрессии, можно попытаться построить для нее уравнение нелинейной регрессии. Наиболее часто в социальных науках используются логарифмические и экспоненциальные регрессионные модели.

Логарифмическая модель применяется, если облако точек на диаграмме рассеяния напоминает логарифмическую кривую. Она имеет вид y = bln(x) +b0 , где ln(x) – независимая переменная.

Эспоненциальная модель применяется, если облако точек на диаграмме рассеяния напоминает экспоненту. Она имеет вид y = ebx +bo или ln( y) = bx +b0 ,

где ln( y) – зависимая переменная.

Тема 19. Основы планирования экспериментов

Эксперименты проводятся с целью строгого исследования причинных связей между непрерывной зависимой переменной, измеряющей поведенческие

О.В. Терещенко 2011

23

реакции, приобретение полезных навыков и т.п., и набором влияющих на нее факторов. Экспериментальный дизайн позволяет устранить влияние на зависимую переменную «посторонних» факторов, не участвующих в эксперименте, и представить исследуемую связь в "очищенном" виде. Основными видами экспериментальных исследований являются лабораторный, полевой (ква- зи-) и естественный эксперимент.

Классический (трехстадийный) эксперимент состоит из трех этапов:

1.формирование групп;

2.проведение эксперимента (помещение групп в определенные условия);

3.измерение и обработка результатов эксперимента.

Существует несколько оснований для классификации экспериментов. Схема эксперимента. Эксперименты бывают внутригрупповыми и меж-

групповыми. Во внутригрупповом эксперименте одна и та же группа испытуемых последовательно помещается в разные условия. В межгрупповом эксперименте возможно помещение двух или нескольких групп с одинаковым составом испытуемых в разные условия либо помещение в одни и те же условия групп, отличающихся друг от друга составом участников.

Число факторов. По числу факторов эксперименты делятся на однофакторные, двухфакторные и многофакторные. Однофакторные эксперименты могут разделяться на бивалентные (с двумя группами) и поливалентные (с несколькими группами). Например, "классический" бивалентный эксперимент предполагает наличие опытной и контрольной групп.

Характер факторов. Факторы бывают регулируемыми и выделяемыми. Контролируемые факторы определяют условия, в которых проводится эксперимент. Выделяемые факторы представляют собой характеристики объектов, которые учитываются при формировании групп.

Способ формирования групп. В лабораторном эксперименте группы формируются в соответствии со строго заданными критериями. При использовании групп, однородных по составу, практикуется случайное распределение участников по группам. В естественном эксперименте участвуют группы, которые уже неким образом существуют, например, школьные классы или академические группы. В полевом эксперименте группы формируются из участников, реально находящихся в разных условиях. Например, при исследовании влияния последствий Чернобыльской катастрофы на социальное самочувствие людей, группы формируются из проживающих на загрязненных и "чистых" территориях.

Тема 19. Дисперсионный анализ

Дисперсионный анализ предназначен для исследования причинных связей, в первую очередь – для обработки данных научного факторного эксперимента. Зависимая переменная всегда бывает количественной Независимые переменные (факторы) могут быть номинальными, порядковыми, количественными (сгруппированными в интервалы).

О.В. Терещенко 2011

24

Суть дисперсионного анализа заключается в проверке гипотезы о влиянии независимых переменных на зависимую в том смысле, что группы объектов, образованные значениями факторов, отличаются друг на от друга средними значениями зависимой переменной.

Для проверки гипотезы используется модель разделения дисперсии зависимой переменной, согласно которой дисперсия, как показатель степени разброса и неоднородности данных, включает, как минимум, две составляющие, одна из которых порождается вариабельностью зависимой переменной внутри группы (внутригрупповая дисперсия), а вторая – различиями между группами (межгрупповая дисперсия). Межгрупповая дисперсия, зависящая от степени неоднородности групп, рассматривается как показатель степени влияния группообразующих факторов на зависимую переменную и, соответственно, является основным предметом дисперсионного анализа. Вместо дис-

персии s2 = n (yi y)2 (n 1) в дисперсионном анализе используется только ее

i =1

числитель – общая сумма квадратов MSSобщ = n (yi y)2

i =1

Однофакторный дисперсионный анализ. Согласно модели однофактор-

ного дисперсионного анализа, общую сумму квадратов можно разделить на две составляющие: внутригрупповую (MSSвнр ) и межгрупповую (MSSмгр ) суммы квадратов: MSSобщ = MSSвгр + MSSмгр . Внутригрупповая сумма квадратов яв-

ляется мерой рассеяния зависимой переменной внутри групп, выделенных соответственно значениям фактора; межгрупповая интерпретируется как часть общей суммы квадратов, обусловленная различиям между группами, т.е. влиянием фактора.

Гипотеза однофакторного анализа.

Пусть фактор имеет k значений (образует k групп).

H 0 : μ1 = μ2 =... = μk = μ (во всех группах средние значения зависимой пере-

менной равны);

H1 : μi μ (хотя бы для некоторых групп средние значения не равны).

Для проверки гипотезы используется p -значение (Sig.) F -критерия Фишера:

если Sig >α , принимается гипотеза H 0 об отсутствии влияния фактора на зависимую переменную;

если Sig <α , принимается гипотеза H1 о том, что такое влияние существует. Значение α , как обычно, выбирается из чисел 0.1, 0.05, 0.01.

Вдвухфакторном анализе рассматриваются три вида группировок зависимой переменной: по первому фактору (который принято называть фактором А), по второму фактору (фактор В), и перекрестная группировка по двум факторам.

Двухфакторный дисперсионный анализ. Согласно модели двухфакторно-

го дисперсионного анализа межгрупповая сумма квадратов (MSS мгр ) делится

О.В. Терещенко 2011

25

H0 : μij μi . μ. j + μ = 0

на сумму квадратов, порожденную влиянием первого фактора (MSS A ), сумму квадратов, порожденную влиянием второго фактора (MSSB ) и сумму квадратов, порожденную эффектом взаимодействия двух факторов (MSS AB ):

MSSмгр = MSS A + MSSB + MSS AB .

Таким образом, модель дисперсионного двухфакторного анализа имеет вид: MSSобщ = MSSвгр + MSS A + MSSB + MSS AB .

Гипотезы двухфакторного дисперсионного анализа. Для двухфакторного дисперсионного анализа проверяются гипотезы трех видов.

Гипотеза о влиянии на зависимую переменную фактора А (об эффекте фактора А):

H0 : μ1. = μ2 . = ... = μk . = μ (во всех k группах, образованных фактором А, сред-

ние значения зависимой переменной равны);

H1 : μi . μ (хотя бы для некоторых групп средние значения не равны).

Гипотеза о влиянии на зависимую переменную фактора В (об эффекте фактора В):

H0 : μ.1 = μ.2 = ... = μ.l = μ (во всех l группах, образованных фактором В, сред-

ние значения зависимой переменной равны);

H1 : μ. j μ (хотя бы для некоторых групп средние значения не равны).

Гипотеза об эффекте взаимодействия факторов А и В:

для любых i =1, k ; j =1,l (эффект взаимодействия от-

сутствует);

H1 : μij μi . μ. j + μ 0 хотя бы для некоторых i и j (эффект взаимодействия

имеет место).

Каждая гипотеза проверяется отдельно, аналогично тому, как проверяется гипотеза однофакторного дисперсионного анализа.

ЛИТЕРАТУРА К РАЗДЕЛУ 3

1.Афифи, А., Эйзен, С. Статистический анализ: Подход с использованием ЭВМ. – М., 1982.

2.Бююль, А., Цефель, П. SPSS: Искусство обработки информации. – СПб, 2002.

3.Гласс, Дж., Стэнли, Дж. Статистические методы в педагогике и психологии. – М., 1976.

4.Девятко, И.Ф. Методы социологического исследования. – М., 2003.

5.Крыштановский, А.О. Анализ социологических данных. – М., 2007.

6.Статистические методы анализа информации в социологических исследованиях / отв. ред. Г.В. Осипов. – М., 1979.

7.Терещенко О.В. Прикладная статистика для социальных наук. – Минск, 2002.

8.Толстова, Ю.Н. Математико-статистические модели в социологии. – М., 2007.

О.В. Терещенко 2011

26