- •Введение
- •Задания
- •Предварительные понятия и определения
- •Выборка
- •Проверка гипотез
- •Точечное оценивание
- •Доверительное оценивание.
- •Вероятностные модели
- •Первичный статистический анализ
- •Задание 1. Выборочные характеристики.
- •Задание 2. Гистограмма выборки.
- •Задание 3. Эмпирическая функция распределения.
- •Проверка гипотезы о типе распределения
- •Задание 4. Критерий согласия хи-квадрат.
- •Проверка гипотезы однородности
- •Задание 5. Одновыборочный критерий Стьюдента.
- •Задание 6. Критерий знаков.
- •Задание 7. Двухвыборочный критерий Стьюдента.
- •Задание 8. Критерий Вилкоксона.
- •Задание 9. Критерий Фишера. Критерий сравнения дисперсий.
- •Задание 10. Критерий однородности хи-квадрат.
- •Интервальные оценки
- •Задание.
- •Задание 11. Построить интервальную оценку для среднего значения нормального распределения.
- •Задание 12.
- •Задание 13. Построить интервальную оценку для вероятности успеха
- •Доказательство корректности метода II.
- •Исследование зависимости между двумя характеристиками
- •Задание 14. Проверить независимость двух характеристик по критерию сопряженности хи-квадрат
- •Задания 15-16. Проверить независимость двух характеристик по критерию Стьюдента. Построить линии регрессии.
Задание 14. Проверить независимость двух характеристик по критерию сопряженности хи-квадрат
Постановка задачи.
По выборке из двумерного распределения (не обязательно нормального) проверить гипотезу независимости компонентов наблюдаемого случайного вектора .
Теоретические основы.
При отсутствии нормальности распределения вектора для проверки независимости его компонентов применяется критерий сопряженности хи-квадрат. Для построения этого критерия необходимо
-
область значений признака X разбить на r интервалов , а область значений признака Y на s интервалов .
-
Для каждого сочетания (i,j) подсчитать количество выборочных данных, для которых, одновременно, признак X попадает в i-ый интервал , а признак Y – в m-ый интервал . Результаты подсчета свести в таблицу сопряженности признаков
Y X |
1-й |
… |
s-й |
Всего |
1-й |
|
… |
|
|
… |
… |
… |
… |
… |
r-й |
|
… |
|
|
Всего |
|
… |
|
|
где, как обычно, точка на месте одного из индексов означает сумму всех чисел по этому индексу с фиксированным значением второго индекса. Проще говоря, нужно просуммировать значения по всем столбцам и строкам таблицы (столбец и строка “Всего”). Число в правой крайней нижней ячейке должно равняться общему объему выборки n.
-
Вычислить статистику критерия сопряженности хи-квадрат
.
При справедливости гипотезы независимости распределение статистики может быть аппроксимировано распределением хи-квадрат с степенями свободы:
.
Следовательно, если гипотеза независимости отвергается при больших значениях статистики , то при
-
критический уровень значимости .
-
Признаки следует признать независимыми если .
Идея критерия сопряженности основана на том, что по закону больших чисел относительная частота
– есть состоятельная оценка вероятности ,
а частоты
, – состоятельные оценки вероятностей , .
Поэтому можно ожидать, что для независимых признаков
и поэтому значение статистики будет “не слишком” большим.
Замечание 1. Как всегда, в критериях хи-квадрат число интервалов разбиения и границы разбиения должны выбираться заранее, до проведения статистического эксперимента. В целях упрощения мы выберем по обоим признакам по 4 интервала
.
Значение первой границы и шаг разбиения будут даны в задании.
Замечание 2. Критерий “безразличен” к способу получения таблицы сопряженности. Очень часто данные сразу имеют вид такой таблицы. Например, в пособии “Курсовой проект …” [2] рассматривается задача проверки гипотезы независимости уровня образования от количества детей в семье. Данные получены путем обследования некоторой совокупности семей, сгруппированной по двум признакам: уровень образования (две градации, r = 2) и число детей (четыре градации, s = 4).