Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
МЕТОДЫ ОБРАБОТКИ И АНАЛИЗА ДАННЫХ В ЭМПИРИЧЕСКО...doc
Скачиваний:
8
Добавлен:
24.09.2019
Размер:
132.61 Кб
Скачать

Анализ парного распределения признаков

Парное (двухмерное) распределение признаков — это распределение совокупности по двум переменным. Если переменная № 1 влияет на переменную №2, то первую называют независимой переменной, а вторую — зависимой.1

В исследовательской практике нередки случаи, когда нельзя точно определить, какая именно переменная оказывает влияние, а какая — объект воздействия. Например, что считать независимой переменной — оценку собственного здоровья или оценку политической ситуации в стране? В таких случаях лучше говорить о взаимозависимости признаков.

Анализ двухмерных и трёхмерных распределений признаков, измеренных с помощью номинальных и порядковых шкал, осуществляется чаще всего на основе данных, полученных из таблиц двухмерного (парного) и трёхмерного распределения. Эти таблицы нередко называют таблицами сопряжённости. В основе таблицы двухмерного распределения лежат два, а трёхмерного распределения — три признака. Приведём пример простейшей таблицы парного распределения, основанной на двух номинальных признаках.

Таблица 8

Влияние участия в последних выборах на характер электорального намерения

Намерение купить

Товар марки А

Товар марки В

Товар марки С

Имеет детей в возрасте до 16 лет

280

27, 2%

260

25,2%

490

47,6%

1030

100,0%

Не имеет

320

36,8%

300

34,5%

250

28,7%

870

100,0%

600

560

740

1900

Из двух переменных – наличия детей и характера покупательского намерения — независимой переменной является наличие детей. Естественно, что именно оно может оказать влияние на намерение купить товар.

Для конструирования и описания таблицы следует:

  1. Разделить респондентов на подгруппы, имеющие различные значения независимой переменной

  2. Сравнить выделенные подгруппы при помощи процентов лиц, имеющих определенные значения зависимой переменной

Наличие детей является независимой переменной, поэтому массив был разделен на подгруппы имеющих и не имеющих детей. Соответственно за 100% берётся численность респондентов, имеющих значения независимой переменной — “имеет” и “не имеет”.

Описать данную таблицу мы можем, сравнив группы имеющих и не имеющих детей при помощи процентов лиц, обладающих определенным значением зависимой переменной. В нашем случае это намерение купить товар определённой марки. Однако, описывать таблицу сопряженности мы имеем право лишь после расчёта значения определённого статистического критерия.

Статистический анализ таблицы сопряжённости двух номинальных признаков

Приведём пример статистического анализа взаимосвязи двух номинальных признаков: участия в последних выборах и электоральных предпочтений.

Для того, чтобы ответить на вопрос, существует ли взаимосвязь между наличием детей и характером покупательского намерения, следует проанализировать таблицу сопряжённости данных двух признаков, применив статистический критерий.

Статистический критерий – правило, при помощи которого проверяются статистические гипотезы. Нулевая гипотеза в данном случае — предположение о статистической независимости рассматриваемых переменных. Альтернативная гипотеза—предположение о том, что указанные переменные взаимозависимы, их связь является статистически значимой.

Корреляционная связь является значимой, когда с высокой степенью уверенности можно утверждать, что она вызвана не случайными причинами – колебаниями выборочных показателей вокруг генерального — а наличием такой связи в генеральной совокупности. Нужно отметить, что наличие корреляционной связи необязательно означает существование причинно-следственной связи между данными признаками. Эта связь может быть следствием некой третьей причины, также оба признака могут выступать и в качестве причины, и следствия.

Доверительная вероятность Р—вероятность правильности альтернативной гипотезы. Величина, связанная с доверительной вероятностью — уровень значимости , он равен 1-Р. Это вероятность ошибки в нашем выводе о подтверждении альтернативной гипотезы. Если, например, Р=0,95, то =1-0,95=0,05.

Применим для проверки нулевой гипотезы статистический критерий ,он применяется для анализа взаимосвязей, прежде всего номинальных признаков.1 В случае, если расчётное значение критерия превысит его критическое значение, определяемое по таблицам распределения ,нулевая гипотеза отвергается. Нужно отметить, что расчёты для определения значимости корреляционной связи осуществляют, основываясь на постулате, что выборка была простой случайной.

Приемлемым для общественных наук является уровень значимости, равный 0,05 и меньше, то есть вероятность ошибки пять шансов из ста. Если политолог получает в процессе машинной обработки данных информацию именно о таком уровне значимости, то он может с полным основанием формулировать вывод о наличии связи между признаками. Если же уровень значимости оказался равным величине, большей 0,05, например, составил 0,07, то делать заключение такого рода нельзя. Приведём в табличной форме результаты анализа статистической связи между нашими признаками, полученные с компьютера.

Таблица 9

Значение и уровень значимости

Критерий

Значение

Уровень значимости

70,39

0,000

Приведённое в последнем столбце таблицы численное значение означает, что уровень значимости составил менее 0,001, поэтому мы можем утверждать, что наличие детей влияет на характер покупательских предпочтений.

Описывая таблицу 8, политолог должен указать, что покупательские предпочтения различаются в группах людей, имеющих и не имеющих детей. Следует отметить, что наиболее существенно группы, имеющие и не имеющие детей, отличаются по доле приверженцев марки С. Среди имеющих детей эту марку выбрали 47,6%, а среди не имеющих — всего 28,7% (см. табл. 7). Если в первой группе товар марки С стоит на первом месте по “популярности”, то во второй группе — на третьем.

В рассмотренном нами случае, если бы связь оказалась незначимой, следовало бы “изолировать” столбец, включающий сторонников марки С, а две другие колонки объединить. При пересчёте эмпирического значения используемого нами критерия мы должны были бы снова проверить нулевую гипотезу, но уже для новой таблицы с укрупнёнными градациями.

Убедившись в том, что связь между исследуемыми переменными является статистически значимой, можно определить её силу (тесноту).

Коэффициент корреляции является мерой зависимости между признаками. Его численное значение и знак указывают на силу (тесноту) и направление корреляционной связи. Численное значение коэффициента корреляции указывает на тесноту связи и может по модулю меняться от нуля до единицы. Чем ближе значение коэффициента к единице, тем связь сильнее. Будем считать связь тесной (сильной), если значение коэффициента корреляции составляет более 0,6. Если коэффициент равен 0,3-0,6, то связь умеренная. Значения менее 0,3 указывают на слабую связь.

Довольно часто для анализа тесноты взаимосвязи двух номинальных признаков применяется коэффициент корреляции Крамера. Он изменяется от 0 до 1 и указывает только на тесноту, а не направление связи. Поэтому данный коэффициент не может иметь отрицательных значений. Коэффициент Крамера считается значимым, если эмпирическое значение критерия , рассчитанное для таблицы, окажется больше критического, то есть в том случае, если связь между признаками, положенными в основу таблицы, будет статистически значимой.

(2)

N — объём выборки; r—число строк; k—число столбцов в таблице;

min(r-1, k-1)— минимальная из двух величин r-1 и k-1. В нашем случае минимальным из чисел, равных 2-1 и 3-1 является 2-1=1.

К=

Так как значение коэффициента составляет менее 0,3, то связь между анализируемыми признаками является слабой. Однако, она статистически значима; значимость мы уже проверили с помощью критерия (см. с.12)

Коэффициент Крамера принадлежит к симметричным коэффициентам, которые измеряют двухстороннюю связь признаков. Строгое математическое значение понятия зависимой и независимой переменной имеют только для асимметричных коэффициентов, которые измеряют влияние одной переменной на другую, то есть одностороннюю связь . Однако, коэффициент Крамера имеет широкое применение, так как он позволяет определить тесноту связи и в том случае, если невозможно выяснить, какой из признаков является зависимым, а какой —независимым.