Скачиваний:
66
Добавлен:
12.01.2016
Размер:
1.46 Mб
Скачать

Исследовать заданный качественный или количественный признак, характеризующий элементы некоторой совокупности.

Всѐ множество объектов, входящий в рассматриваемую совокупность, называют генеральной совокупностью.

Часть генеральной совокупности, выбранную из неѐ случайным образом, называют выборочной совокупностью (выборкой).

Цель статистических расчѐтов: по характеристикам выборочных совокупностей судить о свойствах исходных генеральных совокупностей: об их сходстве или различии.

Пусть имеется набор экспериментальных данных (массив), состоящий из n чисел x1, x2, …, xn.

Среднее арифметическое (среднее значение) для этого набора определяется по формуле:

 

1

n

М x

xi .

n

 

i 1

среднего значения характеризует выборочная дисперсия:

 

1

 

n

D

 

 

xi

n 1

 

i 1

M 2

 

1

 

 

 

 

 

 

n

 

 

 

n n

1

 

 

 

 

 

 

 

 

 

n

 

n

 

2

 

x2

x

 

 

i 1

i

i 1

i

 

 

 

 

 

 

 

Корень квадратный из дисперсии называют средним квадратическим отклонением (стандартным отклонением):

S D .

Среднее квадратическое отклонение имеет ту же размерность, что и элементы исходного массива, что не позволяет сравнить между собой степень рассеяния разнородных величин.

Мерой изменчивости, которая не зависит от единиц измерения изучаемых величин, является коэффициент вариации (коэффициент изменчивости) С. Он равен квадратичному отклонению, выраженному в процентах от среднего значения:

С MS 100%.

Распределения

Рассматривая массив исходных данных из n чисел x1, x2, …, xn, найдѐм наименьший А и наибольший В

элементы этого массива. Разобьѐм отрезок АВ на k равных интервалов, причѐм k = 1+3,31·lgn.

Рассмотрим произвольный j-й интервал разбиения. Обозначим yj – число, соответствующее середине этого интервала.

Подсчитаем количество элементов nj исходного массива, лежащих в рассматриваемом интервале.

Число fj, определяемое по формуле: f j n j n

называется частотой, соответствующей значению yj. Совокупность значений yj и соответствующих им частот

fj называют эмпирическим (статистическим) распределением.

Имеющийся массив экспериментальных данных можно рассматривать в качестве значений некоторой случайной величины Х. Если множество всех теоретически возможных значений величины Х конечно или счѐтно, еѐ называют

дискретной случайной величиной.

Функция F(X), которая для каждого возможного значения xi дискретной случайной величины Х равна вероятности F(xi) появления этого значения, задает

распределение вероятностей случайной величины.

Величину Е(х), определяемую формулой

E X x f x dx ;

D X X E X 2 f x dx.

E X xi F xi , называют математически ожиданием

случайной величины Х.

Математическое ожидание и дисперсия непрерывной

случайной величины определяется соответственно по формулам:

Оценить математическое ожидание, дисперсию, среднее квадратическое отклонение на основе опытных данных можно по записанным ранее уравнениям.

Нормальное распределение

Непрерывная случайная величина Х распределена по нормальному закону, если плотность распределения имеет вид:

f x

 

1

 

 

x 2

 

 

2 2

 

 

 

 

e

 

 

 

 

 

 

 

2

 

График этой функции представляет собой симметричную колоколообразную кривую.

Гамма-распределение

Случайная величина имеет гамма-распределение,

если функция плотности для неѐ имеет вид:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

х 1

е х

при х 0; 0; 0;

Г

f x

 

 

 

0

 

 

 

 

в остальных случаях.

 

 

 

 

 

 

 

Г – гамма-функция: Г

 

х 1 e x dx;

при натуральном : Г 1 !

Форма кривой, являющейся графиком этой функции, изменяется в зависимости от параметра .

Масштаб кривой (при фиксировании ) определяется параметром .

Распределения Пирсона (хи – квадрат), Стьюдента и Фишера

С помощью нормального распределения определяются три распределения, которые в настоящее время часто используются при статистической обработке данных. В дальнейших разделах книги много раз встречаются эти распределения.

Распределение Пирсона (хи - квадрат) – распределение случайной величины

где случайные величины X1, X2,…, Xn независимы и имеют одно и тоже распределение N(0,1). При этом число слагаемых, т.е. n, называется «числом степеней свободы» распределения хи – квадрат.

Распределение хи-квадрат используют при оценивании дисперсии (с помощью доверительного интервала), при проверке гипотез согласия, однородности, независимости, прежде всего для качественных (категоризованных) переменных, принимающих конечное число значений, и во многих других задачах статистического анализа данных [8, 9, 11, 16]. Распределение t Стьюдента – это распределение случайной величины

где случайные величины U и X независимы, U имеет распределение стандартное нормальное распределениеN(0,1), а X – распределение хи – квадрат с n степенями свободы. При этом n называется «числом степеней свободы» распределения Стьюдента.

В настоящее время распределение Стьюдента – одно из наиболее известных распределений среди используемых при анализе реальных данных. Его применяют при оценивании математического ожидания, прогнозного значения и других характеристик с помощью доверительных интервалов, по проверке гипотез о значениях математических ожиданий, коэффициентов регрессионной зависимости, гипотез однородности выборок и т.д. [8, 9, 11, 16].

Распределение Фишера – это распределение случайной величины

где случайные величины Х1 и Х2 независимы и имеют распределения хи – квадрат с числом степеней

свободыk1 и k2 соответственно. При этом пара (k1, k2) – пара «чисел степеней свободы» распределения Фишера, а именно, k1 – число степеней свободы числителя, а k2 – число степеней свободы знаменателя. Распределение случайной величины F названо в честь великого английского статистика Р.Фишера (1890-1962), активно использовавшего его в своих работах. Распределение Фишера используют при проверке гипотез об адекватности модели в регрессионном анализе, о равенстве дисперсий и в других задачах прикладной статистики [8, 9, 11, 16].

Выражения для функций распределения хи - квадрат, Стьюдента и Фишера, их плотностей и характеристик, а также таблицы, необходимые для их практического использования, можно найти в специальной литературе

Проверка статистических гипотез

Располагая каким-либо эмпирическим распределением можно сформулировать ряд вопросов, решение которых важно для проведения полноценного анализа результатов эксперимента:

об отнесении данного распределения к определѐнному теоретическому типу;

о предполагаемой величине параметра такого распределения (если тип распределения известен);

о равенстве параметров нескольких распределений;

о независимости произведения выборок и др.

Такие вопросы формулируются в виде статистических гипотез.

Например:

-данная выборка произведена из нормально распределенной генеральной совокупности;

-дисперсия двух рассматриваемых нормальных генеральных совокупностей равны.

Практический интерес представляет процедура, которая

позволяет либо опровергнуть проверяемую гипотезу как

противоречащую имеющимся данным, либо убедиться в том, что гипотеза этим данным не

противоречит.

Проверяемую гипотезу называют основной (нулевой) гипотезой, а противоречащую ей гипотезу –

альтернативной.

Поскольку речь идет об анализе статистического материала, то, отвергая или принимая нулевую гипотезу, мы всегда рискуем совершить ошибку.

Ошибкой первого рода заключается в том, что нулевая гипотеза отвергается, хотя в действительности она верна.

Ошибка второго рода состоит в том, что нулевая гипотеза не отвергается, хотя она в действительности

неверна.

Проверка статистических гипотез осуществляется с помощью различных статистических критериев.

Области практического применения критериев:

Пирсона позволяет осуществлять проверку эмпирического и теоретического (либо другого эмпирического) распределений одного признака. Данный критерий применяется, в основном, в двух случаях:

-Для сопоставления эмпирического распределения признака с теоретическим распределением (нормальным, показательным, равномерным либо каким-то иным законом);

-Для сопоставления двух эмпирических распределений одного и того же признака.

F - критерий Фишера является параметричесикм критерием и используется для сравнения дисперсий двух вариационных рядов. Эмпирическое значение критерия вычисляется по формуле:

где - большая дисперсия, - меньшая дисперсия рассматриваемых вариационных рядов.

Если вычисленное значение критерия Fэмп больше критического для определенного уровня значимости и соответствующих чисел степеней свободы для числителя и знаменателя, то дисперсии считаются различными. Иными словами, проверяется гипотеза, состоящая в том, что генеральные дисперсии рассматриваемых совокупностей равны между собой: H0={Dx=Dy}.

Критическое значение критерия Фишера следует определять по специальной таблице, исходя из уровня значимости α и степеней свободы числителя (n1-1) и знаменателя (n2-1).

t-критерий Стьюдента — общее название для статистических тестов, в которых статистика критерия имеет распределение Стьюдента. Наиболее часто t- критерии применяются для проверки равенства средних значений в двух выборках. Нулевая гипотеза предполагает, что средние равны (отрицание этого предположения называют гипотезой сдвига).

Все разновидности критерия Стьюдента являются параметрическими и основаны на дополнительном предположении о нормальности выборки данных. Поэтому перед применением критерия Стьюдента рекомендуется выполнить проверку нормальности. Если гипотеза нормальности отвергается, можно проверить другие распределения, если и они не подходят, то следует воспользоваться непараметрическими статистическими тестами.

После выбора определенного критерия множество всех его возможных значений разбивают на два непересекающихся подмножества, одно из которых содержит значения критерия, при которых нулевая гипотеза отвергается, а другое

– при которых она принимается.

Критической областью называют совокупность значений критерия, при которых нулевую гипотезу отвергают.

Областью принятия гипотезы (областью допустимых значений) называют совокупность значений критерия, при которых гипотезу принимают.