Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Спирина М.С. ТВиМС 1 часть.doc
Скачиваний:
499
Добавлен:
18.02.2016
Размер:
1.39 Mб
Скачать

3.6. Статистическая проверка статистических гипотез

Математика как наука дает возможность изучить некоторое явление, объект или систему с помощью определенной математической модели. Задача исследователя – на основе полученных результатов выдвинуть “гипотезу” (предположение) и проверить, насколько эта модель соответствует опытным данным.

В различных областях знаний – в экономике и медицине, технике и естествознании формулируют статистические гипотезы, которые затем проверяются статистическими методами. Современная наука весьма часто пользуется результатами проверки статистических гипотез: при предсказании погоды и стихийных бедствий, при анализе политической и экономической жизни, при поиске подземных ископаемых и т.д.

3.6.1 Статистические гипотезы. Основные понятия

Типы статистических гипотез. Гипотезы имеют огромное значение во всех областях жизни, т.к. их главная задача – помочь выбрать правильное решение из двух альтернативных.

Статистическая гипотеза – это утверждение о виде неизвестного распределения или о параметрах известного распределения. Статистические гипотезы проверяются по результатам выборки статистическими методами в ходе эксперимента (эмпирическим путем) с помощью статистических критериев.

Статистической проверкой статистической гипотезы называется процедура обоснованного сопоставления сформулированной гипотезы с полученными в ходе эксперимента выборочными данными x1,x2,…,xn.

В тех случаях, когда известен закон, но неизвестны значения его параметров (дисперсия или математическое ожидание) в конкретной ситуации, статистическую гипотезу называют параметрической. Гипотеза о предполагаемой величине параметра этого распределения проверяется статистическими методами. Так, предположения об ожидаемом среднем доходе по акциям или о разбросе дохода являются параметрическими гипотезами.

В других случаях, когда закон распределения генеральной совокупности неизвестен, но есть основания предположить, каков его конкретный вид, выдвигается статистическая гипотеза о виде распределения. Тогда, установив вид распределения, можно делать дальнейшие выводы и принимать решения. В этих случаях гипотезу называют непараметрической. Например, можно выдвинуть гипотезу о том, что число дневных продаж в магазине, доход населения или объем выпуска продукции на предприятии подчинены закону нормального распределения.

Итак, к статистическим будем относить гипотезы, возникающие в ходе некоторых исследований, которые можно проверить с помощью экспериментальных данных.

По содержанию статистических гипотез их можно классифицировать:

  1. Гипотезы о типе вероятностного закона распределения случайной величины, характеризующего явление или процесс.

Некоторое свойство экономического характера имеет определенный закон распределения, зависящий от некоторых параметров. Проверка статистической гипотезы о законе распределения случайной величины может установить его с точностью до параметров, характеризующих неизвестный исследователю закон распределения.

  1. Гипотезы об однородности двух или более обрабатываемых выборок, т.е. некоторых характеристик исследуемой совокупности (гипотезы о равенстве или различии законов распределения случайной величины, характеризующих изучаемое свойство).

Изучаемое свойство исследуется с помощью двух или более генеральных совокупностей, отличающихся между собой некоторыми факторами. Результатом статистического анализа статистической гипотезы такого типа может быть один из двух возможных выводов: исследуемые выборочные характеристики различаются между собой статистически , т.е. выборка взята из

  1. Гипотезы о свойствах числовых значений параметров исследуемой генеральной совокупности.

С помощью гипотезы такого типа проверяются свойства некоторого числового параметра (среднего, дисперсии и т.д.) о том, что его значение не меньше (не больше) некоторого заданного значения – номинала или находится в заданных пределах.

  1. Гипотезы о вероятностной зависимости двух или более признаков (факторов) характеризующих различные свойства рассматриваемого явления или процесса.

Два или более свойства рассматриваемого экономического процесса вероятностно зависимы. Определенные факторы оказывают влияние на изучаемый процесс и, значит, на его свойства. Эта стохастическая зависимость подчиняется некоторому общему закону. Задача исследователя заключается в определении характера этой функциональной зависимости (например, линейного) между компонентами этого исследуемого многомерного признака.

Сравнивая эмпирическую и теоретическую функции распределения необходимо различать простые и сложные гипотезы о характере закона:

гипотезу, содержащую предположение(й), называютгипотезой.

Выдвинутую гипотезу называют основной или нулевой и обозначают H0. Противоречащую ей гипотезу H1 называют альтернативной или конкурирующей. Выбор альтернативной гипотезы определяется формулировкой решаемой задачи.

Пусть некоторый закон распределения случайной величины X зависит от некоторого параметра : ƒ(X,). Сформулирована некоторая основная гипотеза, например, о величине параметра , т.е.

H0: , где 0 – конкретное значение параметра .

Тогда, в зависимости от условия задачи, альтернативная гипотеза H1, противоположная суждению H0, может иметь вид H1:  (ненаправленная гипотеза) или , а также 0 (направленная гипотеза).

Статистические критерии. Уровень значимости. Проверка статистической гипотезы осуществляется по данным выборки. Случайную величину К, служащую для проверки нулевой гипотезы, называют статистическим критерием или просто критерием. Статистический критерий дает возможность по результатам выборки принять либо отвергнуть основную гипотезу H0 .

В то же время под статистическим критерием понимают однозначно определенное правило, устанавливающее условие, при котором проверяемая гипотеза отвергается либо не отвергается.

Пример 4. Увеличение числа заболевших некоторым заболеванием дает возможность выдвинуть гипотезу о начале эпидемии. Для сравнения доли заболевших в обычных и экстремальных условиях используются статистические данные, на основании которых делается вывод о том, является ли данное массовое заболевание эпидемией. Предполагается, что существует некоторый критерий – уровень доли заболевших, критический для этого заболевания, который устанавливается по ранее имевшимся случаям.

Различают три вида критериев:

  1. Параметрические критерии – критерии значимости, которые служат для проверки гипотез о параметрах распределения генеральной совокупности (например, о значениях m и при гипотезе о нормальном распределении).

  2. Критерии согласия служат для проверки гипотез о соответствии распределений генеральной совокупности с известной теоретической моделью.

  3. Непараметрические критерии используют в гипотезах, когда не требуется знаний о конкретном виде распределений.

Проверку параметрических гипотез проводят на основе критериев значимости, с помощью затабулированных статистик t, ,F, u и др. Проверку непараметрических гипотез проводят на основе критериев согласия, используя статистики, Колмогорова-Смирнова и др.

Задача проверки статистических гипотез статистическими методами сводится к исследованию генеральной совокупности по выборке, содержащей n независимых случайных величин X1, X2 …, Xn. Таким образом, статистическими методами проверяются гипотезы о значении некоторого признака генеральной совокупности.

Сущность проверки статистических гипотез заключается в том, чтобы установить, согласуются ли между собой данные выборочных наблюдений и сформулированной гипотезы.

Все возможные значения случайной величины X могут быть разбиты на два непересекающихся подмножества: Iкр – критическую область и область принятия гипотезы –.

Областью принятия гипотезы или областью допустимых значений Iдоп называется совокупность значений критерия, при которых эту гипотезу H0 принимают.

Критической областью Iкр для данного статистического критерия K называется множество значений критерия, при которых нулевую гипотезу H0 отвергают.

Наблюдаемым значением критерия (статистикой) kнабл= kВ называется такое значение критерия, которое находят по данным выборки.

Основной принцип проверки статистических гипотез состоит в следующем: если наблюдаемое значение статистики критерия – kнабл в критическую область, то гипотезу, а гипотезу в качестве одного из возможных решений поставленной задачи с формулировкой «гипотезаH0 выборочным данным на уровне значимости».

Границы критической области, отделяющие ее от области принятия гипотезы называют критическими точками и обозначают kкр.

Для определения критической области задается уровень значимости – некая (малая) вероятность (обычно от 0 до 0.1) попадания критерия К в критическую область. Уровень значимости – вероятность принять H1, тогда как справедлива Н0­. В соответствии с нашими обозначениями для условной вероятности имеем

. (3.34)

В зависимости от содержания альтернативной гипотезы H1 осуществляется выбор критической области: левосторонней, правосторонней или двусторонней.

Если смысл исследования заключается в доказательстве конкретного изменения наблюдаемого параметра (его уменьшения или увеличения), то говорят об односторонней критической области.

Если смысл исследования заключается в выявлении различий в изучаемых параметрах, но характер их отклонений от контрольных (или теоретических) не известен, то говорят о двухсторонней критической области и двухсторонних критериях.

Так, при сравнении дисперсий двух нормально распределенных совокупностей, например, при сравнении экспериментальной совокупности с контрольной (теоретической), если основная гипотеза H0: , то в качестве альтернативной может быть выбрана гипотезаH1: .

Пример 5. При решении вопроса об инвестициях в одну из двух отраслей возникает проблема риска вложений. Предполагается, что распределение ежегодных прибылей на инвестиции подчиняются нормальному закону распределения. Исследуются ожидаемые дисперсии ежегодных прибылей от этих инвестиций. Если мы предполагаем, что они взяты из нормально распределенных генеральных совокупностей с равными дисперсиями, то нулевая гипотеза H0: , а в качестве альтернативной может быть выбрана гипотезаH1: , т.е. дисперсии различны. В то же время в качестве альтернативной может быть выбрана гипотезаH1: , т.е. дисперсия первой отрасли превышает дисперсию второй.

Выбор критерия осуществляется до начала эксперимента, но важно учесть, что более точные результаты дают односторонние критерии.

Границы критической области – значения критерия kкр – определяются с помощью уровня значимости  и предположения о характере распределения соответствующей статистики (Таблица 6):

Таблица 6

Критическая область Мкр

Чертеж

Определение

Условие

Значение kкр

через

Левосторонняя

K< kкр

kкр< 0

P(K< kкр)=

Правосторонняя

K>kкр

kкр> 0

P(K> kкр)=

Двусторонняя симметричная

K< kкр1, K>kкр2

илиK>kкр

kкр1< kкр2

Mk (kкр1;kкр2)

P(K<kкр1)=

=P(K> kкр2)= /2

Однако принятие той или иной гипотезы не дает оснований утверждать, что она доказана, т.к. один положительный результат не может служить основанием для того, чтобы считать некоторое утверждение достоверным. Так, в процессе сбора и обработки экспериментальных данных могли закрасться ошибки по различным причинам, мог оказаться недостаточным объем эмпирических данных и т.д. Результаты проверки статистической гипотезы лишь устанавливают на определенном уровне значимости  ее соответствие (или несоответствие) результатам эксперимента.

Ошибки первого и второго рода. Поскольку результатом исследования гипотезы служит управленческое решение, необходимо в ситуации выявленной неопределенности знать последствия возможных ошибок.

Возможны ошибки двух родов:

– можно отвергнуть H0 , а принять неправильную гипотезу H1 – допустить ошибку I рода.

– можно отвергнуть правильную альтернативную гипотезу H1 и принять неправильную нулевую H0 – допустить ошибку II рода.

Заметим, что уровень значимости – есть вероятность ошибки I рода. Ошибки I рода называют -риском. Вероятности допустить ошибку I рода соответствует так называемая “ошибка поставщика” (“ложная тревога”). Обычно (в таблицах для конкретных видов распределений) задается некоторыми стандартными значениями: 0.05; 0.01; 0.005; 0.001.

Ошибки II рода принято называть -риском, а вероятность ее допустить обозначают : итак, – вероятность того, что принята гипотеза H0, если на самом деле справедлива альтернативная гипотеза H1:

. (3.35)

Мощностью критерия называется вероятность попадания критерия в критическую область, при условии справедливости конкурирующей гипотезы. Очевидно, что она равна

M=. (3.36)

Понятно, что для лучшего (наиболее приближенного к действительности) результата нужно, чтобы мощность была более приближена к 1. Однако при заданном объеме выборки одновременно уменьшить вероятности ошибок I и II рода невозможно: единственный способ — увеличение выборки до масштабов, сравнимых со всей генеральной совокупностью — сопряжен с техническими и экономическими трудностями. Поэтому на практике приходится “из двух зол” выбирать меньшее: пытаться подбирать значения параметров  и  опытным путем с целью минимизировать суммарный эффект от возможных ошибок.

Анализ решений в задачах такого вида удобно проводит с помощью таблицы (Таблица 7).

Таблица 7

Принятое решение

Истинное положение

H1 – ложная

H0 – истинная

H0 – ложная

H1 – истинная

H0 – отвергнутое

H1 принятое

 - риск (ложная тревога)

Ошибка 1 рода

правильное решение

H1 – отвергнутое

H0 принятое

правильное решение

 - риск (пропуск брака)

Ошибка 2 рода

Существуют формулы для расчетов статистик гипотез, например, о среднем нормального распределения при неизвестном  или о дисперсии нормального распределения и т.д., которые лежат в основе так называемой теории оценок.

45