Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
10.docx
Скачиваний:
46
Добавлен:
20.02.2016
Размер:
522.74 Кб
Скачать

7. Статистики таблиц сопряженности признаков

Мы рассмотрим статистики, обычно используемые для оценки статистической значимости и тесноты связи переменных, содержащихся в таблице сопряженности. Статистическая значимость наблюдаемой связи обычно измеряется критерием хи-квадрат. Теснота связи важна с практической точки зрения. Обычно она имеет значение, если связь статистически значимая.

Тесноту связи можно измерить коэффициентом корреляции фи, коэффициентом сопряженности признаков, V-коэффициентом Крамера и коэффициентом «лямбда»

Критерий хи-квадрат (chi-square statistic), используемый для проверки статистической значимости наблюдаемых связей в таблицах сопряженности признаков. Он помогает определить наличие или отсутствие систематической связи между двумя переменными.

В данном случае нулевая гипотеза утверждает, что между двумя переменными не существует никакой связи. Проверка нулевой гипотезы выполняется вычислением частот распределения признаков анализируемых переменных в ячейках таблицы, которые можно было бы ожидать, если бы не существовало зависимости между переменными, и при данных итоговых числах в каждом ряду и колонке. Затем для вычисления значения х2 эти ожидаемые частоты, обозначаем e, сравнивают с фактически наблюдаемыми частотами распределения признаков 0, соответствующими ячейкам таблицы. Чем больше разница между ожидаемыми и фактическими частотами, тем выше значение статистики. Предположим, что таблица сопряженности имеет r рядов и с колонок, а случайная выборка состоит из n наблюдений. Тогда ожидаемую частоту для каждой ячейки вычислим по следующей формуле:

e=

где — итоговое число в ряду,— итоговое число в колонке,n— полный размер выборки.

Для данных табл.3 ожидаемая частота распределения признаков для ячеек, расположенных слева направо и сверху вниз, выглядит так:

=7,50 =7,50

=7,50 =7,50

Тогда значение x2 вычисляют следующим образом:

x2=

Для данных табл.3 значение вычислили по формуле:

Чтобы определить, существует ли между переменными систематическая связь, определяют вероятность получения значения , равного или большего, чем рассчитанное из таблицы сопряженности. Важной характеристикой критерияявляется число степеней свободы (df). В обшем случае оно равно числу наблюдений за вычетом числа ограничений, необходимых для вычисления статистического показателя. Для критерия хи-квадрат таблицы сопряженности число степеней свободы равно произведению количества рядов ( r ) минус единица на количество колонок ( с ) минус единица, т.е. df =(r-1)(с-1). Нулевая гипотеза об отсутствии зависимости между двумя переменными должна быть отклонена только тогда, когда полученное значениебольше, чем критическое значениераспределения с соответствующим числом степеней свободы.

Распределение (chi-square distribution) представляет собой асимметричное распределение, форма которого зависит исключительно от числа степеней свободы.

Для таблицы сопряженности (табл. 3) число степеней свободы равно (2 — 1) х (2 — 1) = 1.

Вычисленное значение — 3,333. Так как оно меньше критического значения, равного 3,841, нулевую гипотезу об отсутствии связей между переменными нельзя отклонить. Это означает, что связь между переменными не является статистически значимой при уровне значимости, равном 0,05.

Статистику хи-квадрат также можно использовать в проверках степени согласия, чтобы определить, согласуется ли определенная модель с наблюдаемыми данными. Эти проверки выполняют вычислением значимости (уровня статистической значимости) выборочных отклонений от предполагаемых теоретических (ожидаемых) распределений, а также можно выполнить как на основе таблиц сопряженности, так и на основе таблиц распределения частот (одномерная табуляция). Расчет и определение ее уровня статистической значимости выполняется изложенным выше способом. Значениеследует вычислять только для числовых данных. Если данные представлены в виде процентов, то сначала их необходимо перевести в абсолютные единицы или числа. Кроме того, допущение, лежащее в основе проверки с помощью критериязаключается в том, что наблюдения проведены независимо. В качестве общего правила стоит запомнить, что проверку по критерию хи-квадрат нельзя выполнять, если ожидаемые или теоретические частоты в любой из ячеек меньше пяти. Если число наблюдений в любой ячейке меньше десяти, или если таблица имеет два рядка и две колонки (таблица 2 х 2), то необходимо использовать поправочный коэффициент. С поправочным коэффициентом значение х1 равно 2,133, что не является значимым при уровне значимости, равном 0,05. Для таблицы размером 2x2 , статистику хи-квадрат называют фи-коэффициентом.

Фи-коэффициент пропорционален корню квадратному из . Для выборки размеромn эту статистику находят по формуле:

Фи-квадрат принимает значение, равное 0, если связь отсутствует, на что также указывает и значение хи-квадрат, равное 0. При сильной связи между переменными фи-коэффициент имеет значение 1 и все наблюдения находятся на главной или второстепенной диагонали. (В некоторых компьютерных программах фи-коэффициент принимает значение —1, а не +1, когда наблюдается отрицательная связь. В нашем случае фи-коэффициент равен:

=0,333

Таким образом, связь не очень сильна.

Коэффициент сопряженности признаков - Фи-коэффициент применяют только к таблице 2 х 2, а коэффициент сопряженности признаков С (contingency coefficient) используют для оценки тесноты связи в таблицах любого размера.

Коэффициент сопряженности признаков связан с следующим образом:

Значения коэффициента сопряженности находятся в диапазоне от 0 до 1. При отсутствии связи он равен нулю (т.е. переменные статистически независимы), но своего максимального значения (1) он никогда не достигает. Максимальное значение коэффициента сопряженности зависит от размера таблицы (числа рядков и колонок). Поэтому он используется только для сравнения таблиц одинакового размера. Значение коэффициента сопряженности для табл.3 следующее:

=0,316

Это значение коэффициента сопряженности указывает на слабую связь.

Другой статистикой, которую можно вычислить для любой таблицы, является V-козффициент Крамера (Cramer).

V-коэффициент Крамера (Cramer's V) — это модифицированная версия коэффициента корреляции фи (0 ), которую используют в таблицах, больших по размеру, чем 2x2.

Если для таблиц, больших, чем 2x2 , вычисляют фи-коэффициент, то он не имеет верхней

границы. V-коэффициент Крамера получают корректировкой фи-коэффициента или по числу рядов, или по числу колонок в таблице. Причем из двух значений выбирают меньшее. Корректировку осуществляют так, что значения V-коэффициента лежат в диапазоне от 0 до 1. Большее значение V-коэффициента указывает на более сильную связь, но не указывает, как связаны переменные. Для таблицы с r рядами и с колонками связь между V-коэффициентом Крамера и фи-коэффициентом выражается следующим образом:

V=

Значение V-коэффициент Крамера для табл. 3 равно: V==0,333

Таким образом, связь не очень сильна. В этом случае V = . Так всегда происходит для таблицы 2x2. Другой обычно рассчитываемой статистикой является коэффициент "лямбда".

Коэффициент "лямбда" используется в том случае, когда переменные измерены с помощью номинальной шкалы. Асимметрический коэффициент "лямбда" (asymmetric lambda) показывает выраженное в процентах улучшение при прогнозировании значения зависимой переменной при данном значении независимой переменной. Значения коэффициента "лямбда" лежат в пределах от 0 до 1.

Значение "лямбда", равное 0, означает, что никакого улучшения в прогнозировании не наблюдается. Значение 1 указывает на то, что прогноз может быть сделан без ошибки. Это происходит тогда, когда каждая категория независимой переменной связана с одной категорией зависимой переменной.

Асимметрический коэффициент "лямбда" подсчитывают для каждой из зависимых переменных. Также рассчитывают симметричный коэффициент "лямбда" (symmetric lambda) —средним значением двух асимметричных значений.

Симметричный коэффициент "лямбда" не дает предположения о том, какая из переменных зависимая. Он измеряет общее улучшение прогнозирования, когда прогноз уже сделан в обоих направлениях.

Значение асимметричного коэффициента "лямбда" в табл. 3, если в качестве зависимой переменной взять использование Internet, равно 0,333. Это указывает на то, что знание пола увеличивает нашу возможность прогнозирования на 0,333, т.е. имеет место улучшение прогнозирования на 0,33%. Симметричный коэффициент "лямбда" также равен 0,33%.

20

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]