- •И математической статистике
- •Часть II основные методы математической статистики
- •Владивосток
- •Раздел I основные методы математической статистики
- •1. Генеральная совокупность и выборка
- •1.1 Выборочный метод. Первичная обработка выборочных (экспериментальных) данных.
- •1.2 Выборочные числовые характеристики.
- •Которая называется выборочным средним.
- •2. Точечное оценивание параметров распределений
- •2.1 Свойства оценок; неравенство Крамера – Рао.
- •2.2 Методы получения оценок.
- •3. Интервальное оценивание параметров
- •3.1. Необходимые понятия и функции распределения
- •1) 2) 3)Независимы.
- •3.2 Интервальное оценивание параметров.
- •3.3 Оценки параметров нормального распределения.
- •3.4 Интервальное оценивание параметров распределений, отличных от нормального
- •4.1. Основные определения и используемые понятия.
- •4.2. Критерии согласия
- •1). Критерий Колмогорова
- •2). Критерий хи-квадрат Пирсона
- •3). Критерий Смирнова – Мизеса (критерий ω2)
- •4.3. Проверка гипотез относительно двух выборок
- •4.4. Непараметрические ранговые критерии.
- •5. Дисперсионный анализ: однофакторная модель.
- •6. Элементы прикладного корреляционного анализа
- •6.1. Введение: основные задачи, понятия и терминология.
- •6.2. Корреляция
- •6.3. Ранговая корреляция и сопряжённость
- •6.4.* Выборочные методы частного и множественного
- •Заключение
- •Разлел II вариаты практических заданий
- •1. Общие положения.
- •2. Алгоритмы – формулы расчёта выборок и предлагаемое их
- •Раздел III
- •1. Табулирование данных
- •2. Построение интервального вариационного ряда
- •3. Эмпирическая функция распределения и графическое преставление распеделения частот
- •4. Расчёт числовых характеристик вариационных рядов
- •Приложения Приложение I
- •Приложение II
- •Приложение III
- •Приложение IV Cтатистические таблицы
- •Примечания:1) функция Лапласа и интеграл ошибоксвязаны соотношением; 2)и.
- •Раздел I. Основные методы математической статистики
- •2.2. Методы получения оценок. . . . . . . . 12
- •3. Интервальное оценивание параметров. . . . 15
- •4.3. Проверка гипотез относительно двух выборок. . . . 25
- •4.4. Непараметрические ранговые критерии. . . . . 27
- •5. Основы дисперсионного анализа: однофакторная
- •6.2. Корреляция. . . . . . . . . . 34
- •6.4. Выборочные методы частного и множественного корреляционного
- •1. Общие положения . . . . . . . . . 67
- •2. Алгоритм – формулы расчёта выборок и предлагаемое их
- •Раздел 3. Комментарии и указания к решение типового
- •Часть II
4.1. Основные определения и используемые понятия.
Рассмотрим ситуации, приводящие к задаче проверки статистических гипотез. Случайная величина ξ F(x), при этом F(x) неизвестно; случайная величина ξ F(x, θ), при этом неизвестен набор параметров θ распределения (или некоторые из них). Так как при этом случайная величина представлена в виде выборочных значений {xj}, j = 1 ÷ n, то речь идёт о сравнении выборочного распределения с некоторым гипотетическим теоретическим распределением, причём во втором случае вместо проверки статистической гипотезы можно решать задачу оценки параметров. Ещё один класс задач, связанных с проверкой статистических гипотез, можно сформулировать так: имеются две случайные величины ξ и η, соответственно представленные выборками {xj}, j = 1 ÷ n; {yk}, k = 1 ÷ m . При этом могут возникнуть следующие гипотезы. Из одной ли генеральной совокупности извлекались выборки (можно ли считать незначимой различие в выборочных оценках параметров распределения по разным выборкам)? Каков тип распределения генеральной совокупности, из которой, предположительно, извлекались обе выборки? Есть ли статистическая связь между этими случайными величинами и каков её характер?
Можно все задачи проверки статистических гипотез условно разделить на следующие группы: проверка гипотез о вероятностях; проверка гипотез о параметрах распределений (чаще – средних и дисперсиях; реже - расположения и формы, в этом случае могут привлекаться и моменты более высокого порядка); проверка гипотез о функциях распределения (в частности, гипотез согласия). Гипотезы о наличии и виде статистической зависимости обычно рассматривают в рамках теории корреляции.
Определение 4.1. Случайная величина ξ, которая служит для статистической проверки гипотез, называется статистикой критерия, а правило проверки называют собственно критерием.
Определение 4.2. Проверка гипотезы состоит в том, что если наблюдаемое значение статистики критерия принадлежит некоторому определённому множеству S, т.е. наступает событие {ξ Ѕ}, то основная гипотеза H0 отвергается.
Определение 4.3. Гипотеза называется простой, если она однозначно определяет функцию распределения генеральной совокупности (а также и выборки). Все остальные гипотезы называются сложными.
Пример 4.1. Гипотеза H1: ξ N(0; 1) – простая, а гипотеза H1: ξ N(μ; 2) – сложная, если μ и 2 не конкретизированы.
Если выдвигаются две взаимоисключающие гипотезы H0 и H1 (т.е. верна одна и только одна из них), то одну из них (её обычно обозначают H0) называют основной, а вторую конкурирующей или альтернативной. Одну из гипотез надо принять, и тем самым отвергнуть другую. Обычно и критерий и решение (принять или отвергнуть) формулируются относительно основной гипотезы.
Построение критерия означает, что все возможные значения выборки разбиваются на два множества, т. е выборочное пространство Rn = I U Ī. При этом, если X I, то гипотеза H0 отвергается, а если X Ī, то принимается. Множество I обычно называют критической областью или множеством критических значений, а множество Ī – множеством или областью допустимых значений.
При этом возможны следующие ситуации:
— гипотеза H0 принимается и она верна;
— гипотеза H0 отвергается, хотя она верна (ошибка I рода);
— гипотеза H0 принимается, хотя она не верна (ошибка II рода);
— гипотеза H0 отвергается и она не верна.
Для дальнейшего построения критерия требуется выполнение некоторой эмпирической, не связанной с используемым статистическим материалом, операции: выбор уровня значимости критерия. Под последним понимается величина 1 – ε, где ε некоторая малая вероятность (ε = 0,01; 0,02; 0,05 или в процентах q = 1%, 2%,5% и т. п.), отвечающая событиям, которые в данной обстановке исследования считаются (с некоторым риском) практически невозможными. Иногда через ε (или q/100) обозначают сам уровень значимости. В любом случае вероятность попадания критерия в область допустимых значений при справедливости гипотезы H0 равна 1 – ε.
Замечание 4.1. Если значение критерия, вычисленное на основе выборочных данных, окажется вкритической области, то гипотезуH0отвергают, так как попадание в эту область при выполнении гипотезы практически невозможно. Если же оно окажется вобласти допустимых значений, то ещё нельзя утверждать, что гипотезаH0 подтвердилась; можно лишь утверждать, что наблюдённое значение критерия не противоречит этой гипотезе и она допустима вплоть до получения нового статистического материала, способного изменить ситуацию.
Смысл ошибок I и II рода хорошо виден на простом примере. Пусть рассматривается простая гипотеза H0 : F(x) = F1(x) против простой альтернативы H1 : F(x) = F2(x). Тогда вероятность отвергнуть верную «нулевую», т. е. вероятность ошибка I рода α = P{x I} = 1 – F1(xε) ≤ ε, а вероятность принять неверную «нулевую» гипотезу уже определяется распределением F2(x), т. е. вероятность ошибка II рода β = P{x Ī} = F2(xε) тогда является достаточно малой величиной.
Вычисление вероятностей ошибочных решений при справедливости сложных гипотез, как правило, невозможно, т. к. неизвестно конкретное распределение выборки. И всё-таки, чем более опасными признаются ошибки первого рода, тем меньшее значение уровня значимости критерия ε следует выбирать.
Замечание 4.2. Уровень значимости критерия проверки гипотезы контролирует таким образом лишь ошибки первого рода. Уменьшение ε уменьшает α, но при этом понижаетсячувствительностькритерия так как расширяется область допустимых значений и возрастает вероятность ошибки второго рода β.
Определение 4.4. Величина 1 – β, равная вероятности отвергнуть неверную гипотезу H0, называется мощностью критерия.
Замечание 4.3. Неравенствоα = P{x I}=1 –F1(xε) ≤ ε неоднозначно определяет критическое множество. Выбирают ту из возможностей, которая обеспечивает минимум вероятности ошибки второго рода, или, что тоже самое,максимум мощности критерия (наиболее мощный критерий – НМК).
Замечание 4.4. В ряде случаев, особенно при проверке гипотез, связанных с параметрами распределений, «нулевой» гипотезе может противопоставляться множество альтернатив {Hθ}, каждая из которых может зависеть от конкретного параметраθ (вариант сложной альтернативы). Всё сказанное выше об ошибках второго рода и мощности критерия остаётся справедливым, но относится к каждой из альтернатив, а сами эти величины могут являться функциями параметров.