Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Сб. лаб. раб..doc
Скачиваний:
32
Добавлен:
23.03.2016
Размер:
2 Mб
Скачать

5. Контрольные вопросы

          1. В чем суть метода наименьших квадратов построения линейной эмпирической зависимости? Сформулируйте принцип Лежандра.

          2. Что такое остаточная дисперсия? Каковы статистические характеристики остаточной дисперсии при нормальном законе распределения?

          3. Какие статистические критерии используются для проверки адекватности модели опытным данным при наличии и отсутствии независимой несмещенной оценки дисперсии?

          4. Что такое погрешность? Как определить погрешность эмпирической зависимости?

Лабораторная работа № 7 оценка связи номинальных признаков /таблицы сопряженности/

1. Цель работы

Освоить элементарные приемы анализа таблиц сопряженности 22, в которых представлены результаты наблюдений в номинальных шкалах, с целью оценки связи номинальных признаков.

2. Задание

Создать с помощью генератора случайных чисел 4 случайных двухзначных числа из равномерной совокупности и представить их в виде таблицы 22 для некоторых условных признаковПроверить гипотезу о независимости признаков, вычислить коэффициент связи

3. Краткая теория

Начнем с примера. В приведенной ниже табл. 1 представлены сведения о числе людей, заболевших и не заболевших холерой с указанием, была ли им сделана противохолерная прививка (пример взят из [11]).

Таблица 1

Незаболевшие

Заболевшие

Всего

Привитые

1625

5

1630

Непривитые

1022

11

1033

Всего

2647

16

2663

Задача состоит в том, чтобы выяснить, эффективна ли прививка, значимо ли ее влияние на вероятность заболевания. Видно, что доля заболевших среди непривитых больше, чем среди привитых, но не объясняется ли это случайными факторами? Аналогичных примеров можно привести множество – это и обработка анкет разного рода, исследований социологического, медицинского, экономического характера, иначе говоря – данных, представленных в номинальных шкалах (вместо числового значения указывается то или иное имя). Если градация признаков и групп (будем называть признаками «имена», указанные в крайнем левом столбце, а группами – указанные в верхней стоке) осуществлена по принципу «да – нет», причем суммы по нижней строке и правому столбцу совпадают, то такая таблица называется таблицей сопряженности (признаков) 22. Отметим, что существуют таблицы сопряженности размером, если группы и признаки разбиты на подгруппы и уровни. Мы ограничимся статистическим анализомтаблицы сопряженности 22. Ознакомиться подробнее с таблицами сопряженности и их обработкой можно по [11].

В качестве нулевой гипотезы примем утверждение: прививка не оказывает заметного влияния на вероятность заболевания, а видимый эффект есть следствие случайных вариаций числа заболевших. На языке математической статистики это звучит так: вероятность заболевания для привитых и непривитых равна одному и тому же значению Иначе можно записать так:

Замечание: Мы сильно осложнили бы свою задачу, если бы в качестве нулевой гипотезы выдвинули противоположное утверждение о значимости влияния прививки, т.к. такая гипотеза оказываетсямножественной(нам пришлось бы указывать, насколько сильно влияние прививки, во сколько раз или на сколько она снижает вероятность заболевания).

Но вероятность остается нам неизвестной, значит надо воспользоваться ее оценкой. По теореме о сходимости (по вероятности) относительной частоты события к его вероятности такой оценкой является средняя относительная частота заболевания по всей исследуемой выборке (по обеим группам):Соответственно, вероятность не заболеть приблизительно равнаТаким образом, нам следует сравнить полученные в опыте частоты () с теоретическими, вычисленными в предположении, что гипотезасправедлива. Это проще всего сделать с помощью известного из курса теории вероятностей и математической статистики критерия. Отметим, что это приближенный критерий, существуют и другие, более точные критерии, но они более сложны. Составим новую таблицу, в которой наряду с наблюдаемыми частотами (верхнее число в каждой ячейке) укажем также ожидаемые в предположении справедливости нулевой гипотезы частоты, равные произведению общего числа наблюденийна соответствующие вероятностиили(они указаны во второй строке ячеек в круглых скобках). В третьей строке каждой ячейки укажем разность между наблюдаемыми и теоретическими частотами (в квадратных скобках).

Таблица 2

Привитые

1625

(1620.21)

[4.79]

5

(9.79)

[-4.79]

Непривитые

1022

(1026.79)

[-4.79]

11

(6.21)

[4.79]

Критерий согласия имеет вид:

, (7.1)

где – верхний-предел статистики, а число степеней свободы, как обычно, равно общему числу слагаемых минус 1 и минус число уравнений связи

(7.2)

Общее число слагаемых (мы имеем двойную сумму) равно 4, а число уравнений связи равно 2 (сумма по строкам равна сумме по столбцам и равна ), т.е.Обратите внимание на то, что разности между частотами в каждой ячейке равны по модулю, т.е. чтобы найти их нужно сделать лишь одно вычисление.

Найдем наблюденное значение статистики критерия:

По таблице процентных точек распределения путем интерполяции найдем приближенное значение:

  • уровню значимости 2.5 % соответствует предел ;

  • уровню значимости 1 % соответствует предел .

Следовательно, значение 6.07 соответствует уровню значимо­сти

Это и есть «уровень значимости нулевой гипотезы», он слишком мал, чтобы считать гипотезу верной. Опыт вынуждает нас отклонить гипотезу о том, что прививка не оказывает влияния на вероятность заболевания, и мы приходим к выводу, что прививка заметно уменьшает эту вероятность.