Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Учебное пособие программные стат комплексы.doc
Скачиваний:
36
Добавлен:
14.03.2016
Размер:
1.32 Mб
Скачать

Контрольные вопросы

  1. Какие виды теоретических распределений широко используются в практике статистической обработки информации?

  2. Какой режим работы служит для формирования массива случайных чисел, распределенных по заданному теоретическому распределению?

  3. Какая статистическая функции используется для расчета нормального распределения?

  4. Как строится кумулятивная кривая?

Лабораторная работа № 3

Изучение методов проверки статистических

гипотез с использованием табличного

процессора excel и надстройки

«пакет анализа»

Цель работы – изучение методов проверки статистических гипотез с использованием программной надстройки «Пакет анализа» табличного процессора Microsoft Excel.

Краткие теоретические сведения

Под статистической гипотезой понимают всякое высказывание о генеральной совокупности (случайной величине), проверяемое по выборке (по результатам наблюдений). Процедуру сопоставления высказанной гипотезы с выборочными данными называют проверкой статистической гипотезы.

В ходе статистической обработки данных можно выделить следующие основные виды высказываемых гипотез:

  1. о типе закона распределения исследуемой случайной величины;

  2. об однородности двух или нескольких обрабатываемых выборок или некоторых характеристик анализируемых совокупностей;

  3. о числовых значениях исследуемой генеральной совокупности;

  4. о типе зависимости между компонентами исследуемого многомерного признака;

  5. о независимости и стационарности обрабатываемого ряда наблюдений.

Проверяемую статистическую гипотезу принято называть основной (или нулевой) гипотезой Н0, а противоречащую ей гипотезу – альтернативной (или конкурирующей) Н1.

При проверке правильности выдвинутой статистической гипотезы возможно возникновение двух видов ошибки:

  1. ошибка первого рода – отвергается правильная нулевая гипотеза;

  2. ошибка второго рода – нулевая гипотеза не отвергается, тогда как в действительности она неверна.

Проверка статистических гипотез осуществляется с помощью различных статистических критериев. В качестве критерия используется некоторая случайная величина, точное или приближенное распределение которой известно. Множество всех возможных значений критерия разбивается на два подмножества:

  1. критическая область – совокупность значений критерия, при которых нулевую гипотезу отвергают;

  2. область принятия гипотезы – совокупность значений критерия, при которых гипотезу принимают.

Критическая область выбирается таким образом, чтобы вероятность совершить ошибку первого рода не превосходила некоторого заранее определенного положительного числа – уровня значимости (0,05; 0,01; 0,001). Вероятность совершить ошибку второго рода обозначается . Величина 1- называется мощностью критерия, она равна вероятности отвергнуть неверную гипотезу.

Чаще всего множество возможных значений критерия принадлежит некоторому интервалу, интервалом является и критическая область. Граничные точки критической области называются критическими точками. Критические точки выбираются таким образом, чтобы при выбранном уровне значимости мощность критерия 1- была наибольшей.

Возможны три вида расположения критической области (в зависимости от вида нулевой и альтернативной гипотез, вида и распределения статистического критерия ):

  1. правосторонняя критическая область, состоящая из интервала (xкрпр, ; +), где точка xкрпр, называется правосторонней критической точкой, отвечающей уровню значимости , и определяется из условия P( xкрпр, )= (рис. 1 а);

  2. левосторонняя критическая область, состоящая из интервала (-; xкрлев, ), где точка xкрлев, называется левосторонней критической точкой, отвечающей уровню значимости , и определяется из условия P( xкрлев, )= (рис. 1 б);

  3. двусторонняя критическая область, состоящая из двух интервалов (-; xкрлев, ) и (xкрпр, ; +), где точки xкрлев, и xкрпр, называются двусторонними критическими точками и определяются из условий P( xкрлев, )=/2 и P( xкрпр, )=/2 (рис. 1 в).

Наиболее распространенными являются критерии2, Стьюдента, Фишера.

Проверка гипотезы о нормальном распределении

случайной величины

Проверка гипотезы и предполагаемом законе распределения проводится при помощи специально подобранной случайной величины – критерия согласия. Одним из используемых критериев согласия является критерий 2 Пирсона.

С целью проверки гипотезы о нормальном распределении генеральной совокупности с применением критерия Пирсона сравниваются эмпирические (наблюдаемые) и теоретические (вычисленные в предположении нормального распределения) частоты. Критерий Пирсона устанавливает на принятом уровне значимости согласие или несогласие гипотезы с данными наблюдений.

Пусть по выборке объема n получено эмпирическое распределение:

варианты

xi

x1

x2

xs

эмпирические частоты

ni

n1

n2

ns

В предположении нормального распределения генеральной совокупности вычислены теоретические частоты ni. При уровне значимости требуется проверить нулевую гипотезу: генеральная совокупность распределена нормально. В качестве критерия проверки нулевой гипотезы примем случайную величину

. (1)

Чем меньше различаются эмпирические и теоретические частоты, тем меньше величина критерия, и, следовательно, он в известной степени характеризует близость эмпирического и теоретического распределений. Доказано, что при n случайная величина (1) стремится к закону распределения 2 с k степенями свободы.

Число степеней свободы находят по равенству

, (2)

где s – число групп (частичных интервалов) выборки; r – число параметров предполагаемого распределения.

Если предполагаемое распределение – нормальное, то оценивают два параметра (математическое ожидание и стандартное отклонение), поэтому r =2 и число степеней свободы k = s -3.

Поскольку односторонний критерий более «жестко» отвергает нулевую гипотезу, чем двусторонний, строят правостороннюю критическую область, исходя из требования, чтобы вероятность попадания критерия в эту область в предположении справедливости нулевой гипотезы была равна принятому уровню значимости :

. (3)

Таким образом, правосторонняя критическая область определяется неравенством 22кр(;k), а область принятия нулевой гипотезы – неравенством 22кр(;k).

Обозначив значение критерия, вычисленное по данным наблюдений, через 2набл формулируют правило проверки нулевой гипотезы следующим образом:

Правило. Для того чтобы на заданном уровне значимости проверить нулевую гипотезу Н0: генеральная совокупность распределена нормально, надо сначала вычислить теоретические частоты, а затем наблюдаемое значение критерия

(4)

и по таблице критических точек распределения 2, по заданному уровню значимости  и числу степеней свободы k = s -3 найти критическую точку 2кр(;k). Если 2набл  2кр – нет оснований отвергнуть нулевую гипотезу; если 2набл  2кр – нулевую гипотезу отвергают.

Проверку попадания 2-критерия в критическую область в режиме работы Анализ данных табличного процессора Microsoft Excel проводят при помощи функций ХИ2РАСП и ХИ2ОБР.

1. Функция ХИ2РАСП (x; степени_свободы) рассчитывает 2-распределение. Аргументы: x: значение, для которого рассчитывается 2-распределение; степени_свободы: число степеней свободы.

2. Функция ХИ2ОБР (вероятность; степени_свободы) рассчитывает обратное 2-распределение. Аргументы: вероятность: вероятность, связанная с 2-распределением (уровень значимости ); степени_свободы: число степеней свободы. Функция ХИ2ОБР использует метод итераций для вычисления значения и производит вычисления, пока не получит результат с точность до 310-7.

Для расчета нормального распределения используется функция НОРМРАСП (x; среднее; стандартное_откл; интегральная). Аргументами этой функции являются: x – значение, для которого вычисляется нормальное распределение; среднее – средняя арифметическая распределения; стандартное_откл – стандартное отклонение распределения; интегральная – логическое значение, определяющее форму функции. Если аргумент интегральная =1, то функция НОРМРАСП рассчитывает интегральную функцию распределения; если аргумент интегральная =0 – дифференциальную функцию распределения.