Добавил:
ilirea@mail.ru Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Старый материал / Лекция 4.doc
Скачиваний:
74
Добавлен:
21.08.2018
Размер:
932.86 Кб
Скачать

Критерии χ2 для таблицы 2×2

Критерий χ2 (читается «хи-квадрат») не требует никаких предположений относительно параметров совокупности, из которой извлечены выборки, — это непараметрический критерий. Во-первых, критерий должен давать одно число, которое служило бы мерой отличия наблюдаемых данных от ожидаемых, то есть в данном случае различия между таблицей наблюдаемых и ожидаемых чисел. Во-вторых, критерий должен учитывать, что различие, скажем, в одного больного имеет большее значение при малом ожидаемом числе, чем при большом.

Определим критерий χ2 следующим образом:

где О — наблюдаемое число в клетке таблицы сопряженности, Е — ожидаемое число в той же клетке. Суммирование проводится по всем клеткам таблицы. Как видно из формулы, чем больше разница наблюдаемого и ожидаемого числа, тем больший вклад вносит клетка в величину χ2. При этом клетки с малым ожидаемым числом вносят больший вклад.

Таким образом, критерий удовлетворяет обоим требованиям — во-первых, измеряет различия и, во-вторых, учитывает их величину относительно ожидаемых чисел. Можно показать, что для таблиц сопряженности размером 2×2 выполняется равенство χ2 = z2

Рис. 5.7. Распределение χ2 с 1 степенью свободы. Заштрихованная зона — это 5% наибольших значений.

24

Критическое значение χ2 можно найти следующим способом. На рис. 5.7 показано распределение возможных значений χ2 для таблиц сопряженности размером 2×2 для случая, когда между изучаемыми признаками нет никакой связи. Величина χ2 превышает 3,84 только в 5% случаев. Таким образом, 3,84 — критическое значение для 5% уровня значимости. В примере с тромбозом шунта мы получили значение 7,10, поэтому мы отклоняем гипотезу об отсутствии связи между приемом аспирина и образованием тромбов.

Применение критерия χ2 правомерно, если ожидаемое число в любой из клеток больше или равно 5 (в противном случае мы вынуждены использовать точный критерий Фишера). Это условие аналогично условию применимости критерия z. Критическое значение χ2 зависит от размеров таблицы сопряженности, то есть от числа сравниваемых методов лечения (строк таблицы) и числа возможных исходов (столбцов таблицы). Размер таблицы выражается числом степеней свободы ν:

ν = (r – 1)(c – 1),

где r — число строк, а с — число столбцов.

Приведенная ранее формула для χ2 в случае таблицы 2×2 (то есть при 1 степени свободы) дает несколько завышенные значения (сходная ситуация была с критерием z). Это вызвано тем, что теоретическое распределение χ2 непрерывно, тогда как набор вычисленных значений χ2 дискретен. На практике это приведет к тому, что нулевая гипотеза будет отвергаться слишком часто. Чтобы компенсировать этот эффект, в формулу вводят поправку Йеитса:

Заметим, поправка Йеитса применяется только при ν = 1, то есть для таблиц 2×2.

Итак, мы познакомились с критерием χ2. Вот порядок его применения.

• Постройте по имеющимся данным таблицу сопряженности.

• Подсчитайте число объектов в каждой строке и в каждом столбце и найдите, какую долю от общего числа объектов составляют эти величины.

• Зная эти доли, подсчитайте с точностью до двух знаков после запятой ожидаемые числа — количество объектов, которое попало бы в каждую клетку таблицы, если бы связь между строками и столбцами отсутствовала

• Найдите величину, характеризующую различия наблюдаемых и ожидаемых значений. Если таблица сопряженности имеет размер 2×2, примените поправку Йеитса

• Вычислите число степеней свободы, выберите уровень значимости и по табл. 5.7, определите критическое значение χ2.

Сравните его с полученным для вашей таблицы.

Для таблиц сопряженности размером 2×2 критерий χ2 применим только в случае, когда все ожидаемые числа больше 5. Как обстоит дело с таблицами большего размера? В этом случае критерии χ2 применим, если все ожидаемые числа не меньше 1 и доля клеток с ожидаемыми числами меньше 5 не превышает 20%. При невыполнении этих условии критерии χ2 может дать ложные результаты. В таком случае можно собрать дополнительные данные, однако это не всегда осуществимо. Есть и более простой путь — объединить несколько строк или столбцов.

25