Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

А.В. Бирюков Методы анализа и обработки наблюдений

.pdf
Скачиваний:
18
Добавлен:
19.08.2013
Размер:
207.27 Кб
Скачать

МИНИСТЕРСТВО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ ГОСУДАРСТВЕННОЕ УЧРЕЖДЕНИЕ

КУЗБАССКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ

Кафедра высшей математики

МЕТОДЫ АНАЛИЗА И ОБРАБОТКИ НАБЛЮДЕНИЙ Методические указания к использованию математической статистики

в научной работе студентов и аспирантов всех направлений

Составитель А.В.Бирюков Утверждены на заседании кафедры Протокол № 3 от 25.02.02

Рекомендованы к печати учебно-методической комиссией специальности 290300 Протокол № 12 от 21.03.02 Электронная копия находится в библиотеке главного корпуса ГУ КузГТУ

Кемерово 2002

1

По определению А. Вальда статистика есть совокупность методов, которые дают нам возможность принимать оптимальные решения в условиях неопределенности. Если дескриптивная статистика ограничивается описанием полных совокупностей, то современная индуктивная или аналитическая статистика исследует только репрезентативную часть совокупности, называемую выборкой. Результаты исследования выборки распространяются по индукции на всю генеральную совокупность. Индуктивная статистика позволяет вынести суждение о соответствии эксперимента (результатов наблюдений) существующим научным теориям. При этом высказывания должны иметь вероятностный характер и сообщать максимально возможную информацию, необходимую для принятия решения.

1.Характеристики выборки

Пусть в результате наблюдений или измерений получены n значений случайной величины Х: Х1, Х2,…, Хn. Число n называется объемом выборки. Основными числовыми характеристиками выборки являются

__

выборочное среднее Х и выборочная дисперсия S2:

__

 

1

n

 

 

1

n

__

 

Х

=

 

Xi ,

S 2

=

 

(Xi X )2 ,

(1.1)

 

 

 

 

n i=1

 

 

n 1i=1

 

 

которые служат оценками неизвестных параметров генеральной совокупности.

Выборочное или эмпирическое распределение случайной величины Х обычно представляется гистограммой. Для ее построения размах выборки

R=maxX-minX

(1.2)

делится на 5-6 интервалов и для каждого из них вычисляется относительная частота ni/n (оценка вероятности), где ni – число элементов выборки в i-м интервале. Затем над каждым интервалом строится прямоугольник высотой ni/n.

__

Кроме названных числовых характеристик выборки Х , S2, R ис-

пользуются также среднеквадратическое отклонение или стандарт S (корень квадратный из дисперсии) и выборочный коэффициент вариа-

__

ции W=S/ Х . По виду гистограммы легко подобрать вероятностную

2

модель, т.е. теоретическое распределение с параметрами, значения которых оцениваются характеристиками выборки.

2. Статистические критерии

Выборочные оценки генеральных параметров называются статистиками. Пусть генеральный параметр λ оценивается статистикой λ0. Если высказывание λ (λ0-а, λ0+а) справедливо с вероятностью 1-Р, то данный интервал называется доверительным интервалом, а вероятность 1-Р – доверительной вероятностью. При этом величину Р называют уровнем значимости.

Гипотеза о том, что две выборки извлечены из одной и той же генеральной совокупности, называется нуль-гипотезой. При ее проверке возможны два ошибочных решения: ошибка 1-го рода – отклонить верную гипотезу; ошибка 2-го рода – принять неверную гипотезу. Вероятность ошибки 1-го рода равна уровню значимости.

Критерии, которые служат для проверки гипотез, относящихся к выборочным оценкам генеральных параметров, называются параметрическими критериями. Они предполагают известным закон распределения случайной величины. Если же критерий этого не предполагает, то его называют непараметрическим. Непараметрическая статистика обладает тем преимуществом, что требует сравнительно простых вычислений. Поэтому ее методы называют «быстрыми».

3. Основные распределения выборочных статистик

__

Пусть n, Х , S – объем, среднее и стандарт выборки, извлеченной из

нормально распределенной генеральной совокупности с генеральным средним Х0. Тогда статистика

 

_

 

 

 

t =

 

ХХ0

 

/ S n

(3.1)

 

 

 

 

 

 

 

 

имеет t-распределение или распределение Стьюдента. Критические значения этой статистики с числом степеней свободы f=n-1 для уровня значимости P=0,05 приведены в табл.1

3

 

 

 

 

 

 

 

 

 

Таблица 1

f

4

6

8

 

10

 

12

14

16

t

2,78

2,45

2,31

 

2,23

 

2,18

2,14

2,12

f

18

20

25

 

30

 

40

50

60

t

2,10

2,09

2,06

 

2,04

 

2,02

2,01

2,00

Если S2 – дисперсия выборки объема n из генеральной совокупно-

сти с дисперсией σ2, то статистика

 

 

 

 

 

 

 

 

χ2=(n-1)S2/σ2

 

 

(3.2)

имеет χ2 – распределение или распределение Пирсона с числом степеней свободы f=n-1. Критические значения статистики х2 для уровня значимости Р=0,05 приведены в табл.2.

 

 

 

 

 

 

 

 

Таблица 2

f

2

 

 

3

4

5

6

7

χ2

6,0

 

 

7,8

9,5

11,1

12,6

14,1

f

8

 

 

10

12

14

16

18

χ2

15,5

 

 

18,3

21,0

23,7

26,3

28,9

f

20

 

 

22

24

26

28

30

χ2

31,4

 

 

33,9

36,4

38,9

41,3

43,8

Пусть S 2 и

S 2

- дисперсии независимых случайных выборок объе-

 

1

2

 

 

 

 

 

ма n1 и n2 из двух нормально распределенных генеральных совокупностей с равными дисперсиями. Тогда отношение

 

 

 

F = S 2

/ S 2

(S 2

> S 2 )

(3.3)

 

 

 

1

2

1

2

 

имеет F-распределение или распределение Фишера с числом степеней

свободы f1=n1-1, f2=n2-1. Критические значения

F-статистики для уров-

ня значимости Р=0,05 приведены в табл.3.

 

 

 

Таблица 3

 

 

 

 

 

 

 

 

 

f2

 

 

 

f1

 

 

 

 

 

10

15

 

20

 

 

30

40

10

3,0

2,8

 

2,8

 

 

2,7

2,6

15

2,5

2,4

 

2,3

 

 

2,2

2,2

20

2,3

2,2

 

2,1

 

 

2,0

2,0

30

2,2

2,0

 

1,9

 

 

1,8

1,8

40

2,1

1,9

 

1,8

 

 

1,7

1,7

4

4. Проверка статистических гипотез

При проверке статистических гипотез, относящихся к инженерным задачам уровень значимости чаще всего принимается равным Р=0,05 и, следовательно, надежность выводов – равной 1-Р=0,95. В дальнейшем приняты именно эти значения.

4.1. Нормальность выборки

Выборка называется нормальной, если она извлечена из нормально распределенной генеральной совокупности. Проверка выборки на нормальность состоит в вычислении статистики

N = R / S,

(4.1)

где R, S – размах и стандарт выборки. Если найденное значение статистики принадлежит критическому интервалу, то выборку можно считать нормальной. В табл.4 приведены границы критического интервала (а,в) в зависимости от объема выборки n.

 

 

 

 

 

 

Таблица 4

n

10

15

20

25

30

40

a

2,7

3,0

3,2

3,3

3,5

3,7

в

3,7

4,2

4,5

4,7

4,9

5,2

n

50

60

70

80

90

100

a

3,8

4,0

4,1

4,2

4,2

4,3

в

5,4

5,5

5,6

5,7

5,8

5,9

При оценивании генеральных параметров необходимый объем выборки определяется требуемой точностью оценок. Если z – максимально допустимая относительная погрешность оценивания (в долях единицы), то минимальный объем нормальной выборки составляет

n=1+2/z2

(4.2)

4.2.Исключение ошибок

Ввыборке ошибочными элементами могут быть либо самый большой, либо самый малый. Обозначим сомнительный элемент через х. Тогда соответствующая статистика имеет вид:

5

 

_

(4.3)

C = X X / S,

_

где X , S – среднее и стандарт выборки. Сомнительный элемент отбрасывается как ошибочный, если вычисленное значение статистики превосходит критическое. В табл.5 приведены критические значения, зависящие от объема выборки n.

 

 

 

 

 

 

Таблица 5

n

4

6

8

10

12

14

c

1,7

2,0

2,2

2,3

2,4

2,5

n

16

18

20

22

24

26

c

2,5

2,6

2,6

2,7

2,7

2,7

4.3. Сравнение дисперсий

Критерий Фишера

Для двух нормальных выборок объемом n1 и n2 с дисперсиями S12 и S22 проверяется нуль-гипотеза: обе выборочные дисперсии являются

оценками одной и той же генеральной дисперсии или, другими словами, различие между дисперсиями незначимо (случайно). Искомой статистикой является F-статистика

F = S 2

/ S 2

(S 2

> S 2 )

(4.4)

1

2

1

2

 

с числом степеней свободы f1=n1-1, f2=n2-1. Нуль-гипотеза отклоняется, если найденное значение (4.4) превосходит критическое (табл.3).

Критерий Хартли

Пусть число нормальных выборок равно К, а объем каждой из них равен n. Проверяется нуль-гипотеза: все выборочные дисперсии S12 , S22 ,…, Sk2 являются оценками одной и той же генеральной дисперсии.

Статистика Хартли равна отношению наибольшей дисперсии к наименьшей:

X = max S 2 / min S 2

(4.5)

Нуль-гипотеза отклоняется, если значение (4.5) превосходит критическое (табл.6).

6

Таблица 6

К

 

 

 

n

 

 

10

15

20

30

60

3

4,8

3,5

3,0

2,4

1,8

4

5,7

4,0

3,3

2,6

2,0

5

6,3

4,4

3,5

2,8

2,0

6

6,9

4,7

3,8

2,9

2,1

7

7,4

5,0

3,9

3,0

2,2

8

7,9

5,2

4,1

3,1

2,2

9

8,3

5,4

4,2

3,2

2,3

10

8,7

5,6

4,4

3,3

2,3

Критерий Пиллаи

Рассмотренные критерии сравнения дисперсий предполагают нормальность выборок. Для двух произвольных выборок с объемами n1 и n2 и размахами R1 и R2 проверка нуль-гипотезы может быть проведена по критерию со статистикой

 

 

П = R1 / R2 ,

(R1>R2)

(4.6)

 

Если это отношение превосходит критическое (табл.7), то нуль-

гипотеза отклоняется.

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 7

n2

 

 

 

 

n1

 

 

 

6

 

7

 

8

 

9

10

6

2,3

 

2,4

 

2,5

 

2,6

2,7

7

2,0

 

2,1

 

2,2

 

2,3

2,3

8

1,8

 

1,9

 

2,0

 

2,1

2,1

9

1,7

 

1,8

 

1,8

 

1,9

2,0

10

1,6

 

1,7

 

1,7

 

1,8

1,9

 

 

 

4.4. Сравнение средних

 

 

 

 

 

Критерий Лорда

 

 

Для двух произвольных выборок одинакового объема n со средни-

 

_

_

 

 

 

 

 

ми значениями X1 и X 2 и размахами R1 и R2 проверяется нуль-гипотеза:

7

выборочные средние являются оценками одного и того же генерального среднего. Соответствующая статистика имеет вид:

 

 

 

 

 

 

 

 

_

_

 

 

 

 

(4.7)

 

 

 

 

 

 

 

L = 2

X 1X 2

/(R1 + R2 )

 

Если найденное значение этой статистики превосходит критическое

(табл.8), то нуль-гипотеза отклоняется.

 

 

 

 

 

Таблица 8

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

3

 

4

 

5

6

 

7

 

8

 

L

 

1,27

 

0,83

 

0,61

0,50

 

0,43

 

0,37

 

n

 

9

 

10

 

11

12

 

13

 

14

 

L

 

0,33

 

0,30

 

0,28

0,26

 

0,24

 

0,23

 

n

 

15

 

16

 

17

18

 

19

 

20

 

L

 

0,22

 

0,21

 

0,20

0,19

 

0,18

 

0,17

 

 

 

 

 

 

Критерий Диксона

 

 

 

 

 

Пусть

имеется

К выборок одинакового

объема n со

средними

_

_

 

_

 

 

 

 

 

 

 

 

 

 

 

X 1 > X 2 >…> X к. Требуется установить, значимо ли отличается наи-

 

 

 

 

 

 

_

_

_

 

 

большее среднее от остальных. При X 1 < X 2 <…< X к аналогичный вопрос относится к наименьшему среднему. Ответы на эти вопросы дает статистика Диксона

 

_ _

 

_ _

(4.8)

D =

X 1X 2

/

X1X 2

 

 

 

 

 

Если найденное значение статистики превосходит критическое (табл.9), то экстремальное среднее значимо отличается от остальных.

Таблица 9

K

3

4

5

6

7

D

0,94

0,76

0,64

0,56

0,51

4.5. Сравнение выборок

Критерий Вилкоксона

Проверяется нуль-гипотеза: две выборки объемом n1 и n2 принадлежат одной и той же генеральной совокупности.

8

Обе выборки объединяем в одну совокупность и располагаем элементы по возрастанию, помечая (например, штрихом) элементы одной из выборок. В объединенной совокупности элементы нумеруем в порядке возрастания. Номер элемента называется его рангом. Одинаковым по величине элементам присваиваем средний в их группе ранг. Далее подсчитываем суммы рангов элементов каждой выборки А1 и А2 и находим величины

u1=n1n2 +0,5(n1+1)n1-A1 , u2=n1n2+0,5(n2+1)n2-A2

Искомая статистика равна наименьшему из чисел u1 и u2, т.е.

U=min (U1, U2)

(4.9)

Нуль-гипотеза отклоняется, если значение (4.9) меньше критического (табл.10)

 

 

 

 

 

 

 

 

Таблица 10

n

5

6

7

8

9

10

11

 

12

u

4

7

11

15

21

27

34

 

42

n

13

14

15

16

17

18

19

 

20

u

51

61

72

83

96

109

123

 

138

 

 

 

Критерий Краскеля-Валлиса

 

 

 

Пусть имеет К произвольных выборок объемом n1, n2,…, nк. Проверяется нуль-гипотеза: все выборки извлечены из одной и той же генеральной совокупности.

Для проверки этой гипотезы, как и в предыдущем случае, все выборки объединяются в одну совокупность, элементы которой располагаются по возрастанию и для каждой выборки помечаются каким-либо образом. После ранжировки элементов подсчитывается сумма рангов Аi (i=1,2,…, К) для каждой выборки. Искомая статистика имеет вид:

H =

12

к (A2

/ n )3(n +1),

(4.10)

 

 

n(n +1) i=1 i

i

 

где n=n1+n2+..+nк.

9

Нуль-гипотеза отклоняется, если значение статистики (4.10) больше критического (табл.11), зависящего от числа выборок К.

 

 

 

 

 

 

 

Таблица 11

К-1

2

 

3

4

5

6

7

Н

6,0

 

7,8

9,5

11

13

14

К-1

8

 

9

10

11

12

13

Н

16

 

17

18

20

21

22

К-1

14

 

15

16

17

18

19

Н

24

 

25

26

28

29

30

К-1

20

 

21

22

23

24

25

Н

31

 

33

34

35

36

37

 

 

5. Зависимость между случайными величинами

5.1. Коэффициент корреляции

Пусть имеются пары наблюдений за двумя случайными величинами (xi, yi), I=1,2,…,n. Коэффициент корреляции r является показателем того, насколько зависимость между Х и У близка к линейной. Соответствующая выборочная статистика имеет вид:

 

__

_ _

/ S S

 

 

(5.1)

r = xyx y

2

,

 

 

 

1

 

 

 

 

 

 

 

 

 

__

_ _

 

 

 

 

 

где xy - среднее произведение ;

x y

- произведение средних; S1, S2

стандарты величин х и y. Статистика (5.1) принимает значения на отрезке r [-1;1]. При r=1 и r=-1 все точки (xi, yi) лежат на прямой линии. Корреляционная зависимость между х и у значима, если значение статистики (5.1) превосходит критическое (табл.12).

Соседние файлы в предмете Высшая математика