Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Теория вероятностей и математическая статистика_Лисьев В.П_Уч. пос_МЭСИ, 2006 -199с

.pdf
Скачиваний:
68
Добавлен:
23.08.2019
Размер:
2.47 Mб
Скачать

Регрессионный анализ

Пример 9.1. При исследовании зависимости между случайными величинами X и Y была получена следующая таблица измерений соответствующих значений этих величин:

xi: 0,3

0,4

0,5

0,5

0,6

0,7

0,8

0,9

0,9

1,0

1,1

1,4

yi: 0,2

0,8

1,2

1,1

1,8

2,5

3,1

3,4

3,8

4,1

4,4

5,9

Вычислить ковариационный момент и коэффициент корреляции. Аппроксимиро- вать статистическую зависимость между этими величинами линейной функцией y = ax + b.

Все вычисления удобно проводить в специальной таблице. В левой части таблицы вычисляются все необходимые суммы (последняя строка таблицы) для определения ко- эффициентов аппроксимирующей функции. Найдём сначала эмпирические математи-

ческие ожидания: m*x

=

9,1

0,758,

 

m*y =

 

32,3

 

2,691.

 

 

 

 

 

 

 

 

12

 

 

 

 

 

 

 

 

 

 

 

 

 

12

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Пользуясь формулами (9.12), вычислим коэффициенты аппроксимирующей

функции:

 

12 30,52 9,1 32,3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

a* =

 

5,34,

 

b*

= 2,691 5,34 0,758 ≈ −1,36 .

 

 

 

 

12 8,03 9,12

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таким образом, аппроксимирующая функция имеет вид:

~

= 5,34x 1,36 .

 

 

 

y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

xi

 

yi

xi yi

 

xi

2

 

 

2

~

 

 

~

~

2

 

 

 

 

 

 

 

 

yi

yi

 

 

yi yi

( yi yi )

 

 

 

1

0,3

 

0,2

0,06

 

 

0,09

 

 

0,04

0,242

 

 

–0,042

0,0018

 

 

 

2

0,4

 

0,8

0,32

 

 

0,16

 

 

0,64

0,776

 

 

0,024

0,0006

 

 

 

3

0,5

 

1,2

0,60

 

 

0,25

 

 

1,44

1,310

 

 

–0,110

0,0121

 

 

 

4

0,5

 

1,1

0,55

 

 

0,25

 

 

1,21

1,310

 

 

–0,210

0,0441

 

 

 

5

0,6

 

1,8

1,08

 

 

0,36

 

 

3,24

1,844

 

 

–0,044

0,0019

 

 

 

6

0,7

 

2,5

1,75

 

 

0,49

 

 

6,25

2,378

 

 

0,122

0,0149

 

 

 

7

0,8

 

3,1

2,48

 

 

0,64

 

 

9,61

2,912

 

 

0,188

0,0353

 

 

 

8

0,9

 

3,4

3,06

 

 

0,81

 

 

11,56

3,446

 

 

–0,046

0,0021

 

 

 

9

0,9

 

3,8

3,42

 

 

0,81

 

 

14,44

3,446

 

 

0,354

0,1253

 

 

 

10

1,0

 

4,1

4,10

 

 

1, 00

 

 

16,81

3,980

 

 

0,120

0,0144

 

 

 

11

1,1

 

4,4

4,84

 

 

1,21

 

 

19,36

4,514

 

 

–0,114

0,0130

 

 

 

12

1,4

 

5,9

8,26

 

 

1,96

 

 

34,81

6,116

 

 

–0,216

0,0467

 

 

 

Σ

9,1

 

32,3

30,52

 

8,03

 

 

119,41

32,274

 

 

–0, 026

0,3122

 

 

Во второй части таблицы вычисляется остаточная дисперсия по формуле (9.13) с учётом того, что были оценены два параметра (a и b):

Dост = 1212 0,3122 = 0,03122 .

Таким образом, средняя квадратическая ошибка аппроксимации составит величину σост = Dост = 0,03122 = 0,177 . Вычислим ковариационный момент поформуле (9.17):

K xy* = 121 30,52 0,758 2,691 0,494 .

Для определения коэффициента корреляции необходимо вычислить оценки дис- персий величин X и Y:

D*

=

1

8,03 0,7582 0,094,

σ

*

=

0,094 0,307.

x

 

12

 

 

x

 

 

Dy*

=

1

119,41 2,6912 = 2,71,

σ*y

 

=

2,71 1,646.

 

 

12

 

 

 

 

 

141

Теория вероятностей и математическая статистика

Следовательно, r

*

=

K xy*

 

=

0,494

0,978 .

xy

σ*x σ

 

0,307 1,646

 

 

*x

 

Полученный коэффициент корреляции очень высок. Этим объясняется малая ве- личина средней квадратической ошибки аппроксимации.

9.3.Многомерный линейный регрессионный анализ

Рассмотрим случай, когда случайная величина Z зависит от нескольких случайных величин Xi, i = 1, 2, …, k, причём зависимость предполагается линейной. Тогда будем иметь следующую структуру аппроксимирующей функции:

k

y = b + aixi . (9.20)

i=1

Коэффициенты ai и b этой функции нужно оценить. Пусть имеется n групп соот- ветствующих измерений yj и xij. Здесь i номер переменной, j номер измерения, j = 1, 2, …, n. Коэффициенты определяются из условия минимума суммы квадратов отклонений истинных значений величины Y от прогнозируемых:

 

 

 

n

 

( y

 

 

b

k

 

a

x

 

)2 = min,

ar = (a , a

 

,..., a

 

 

).

 

 

 

 

 

 

 

 

j

 

ij

2

k

 

 

 

 

(9.21)

 

 

 

 

 

 

 

 

 

i

 

 

 

ar,b

1

 

 

 

 

 

 

 

 

 

 

 

j=1

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k

 

 

 

 

 

 

1

n

 

Проводя минимизацию по

 

b,

 

получим: b = m*y

ai m*xi ,

 

где m*y

=

y j ,

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

j=1

 

1

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m*xi =

xij . Подставим найденное b в выражение (9.21):

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

j=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

[( y

 

 

m* )

 

k

a

 

(x

 

 

m* )]2 = min, ar

= (a , a

 

, ..., a

 

).

 

 

 

 

 

j

 

i

ij

2

k

 

 

 

 

 

 

 

 

 

 

 

y

 

 

 

 

xi

ar

 

 

1

 

 

 

 

 

 

 

 

j=1

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Приравнивая частные производные по коэффициентам к нулю, получим систему

уравнений:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

[(y j my* ) ai (xij mxi* )](x1 j mx* 1 ) = 0,

 

 

 

 

 

 

 

 

 

 

j=1

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

[(y j

my*

)

ai (xij mxi* )](x2 j

mx* 2 ) = 0,

 

 

 

 

 

 

 

 

 

 

 

j=1

 

i=1

 

 

 

 

 

 

 

 

 

 

− − − − − − − − − − − − − − − − − − − − − − − − − −

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

[(y j

my*

 

)

 

 

 

ai (xij mxi* )](xkj

mxk* ) = 0.

 

 

 

 

 

 

 

 

 

 

j=1

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

Минимизация сводится к решению этой системы k уравнений с k неизвестными. Введём для краткости записи эмпирические коэффициенты ковариации:

Ksi =

1

 

n

(xij mxi* )(xsj mxs*

),

i, s = 1, 2, ..., k;

n

j=1

Kys =

1

n

(y j my* )(xsj mxs*

),

s = 1, 2, ..., k.

 

n

 

 

 

j=1

 

 

142

Получим следующую запись системы:

K

11 a1

+ K12 a2

+ K13 a3

+ ... + K1k ak

= K y1

,

 

K

21 a1

+ K22 a2

+ K23 a3

+ ... + K2k ak

= K y2

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

− − − − − − − − − − − − − − − − − − − − − − − −

 

K

k1

a

1

+ K

k2

a

2

+ K

k3

a

3

+ ... + K

kk

a

k

= K

yk

.

 

 

 

 

 

 

 

 

 

 

 

Регрессионный анализ

(9.22)

Решая её, найдём коэффициенты ai*. Аппроксимирующая функция запишется:

~

*

k

*

*

y

= my + ai

(xi mxi ).

i=1

Можно теперь оценить остаточную дисперсию:

 

1

n

 

k

 

 

Dост* =

[(y j my*

ai* (xij mxi*

)]2 .

n к 1

 

 

 

 

 

 

j=1

 

i=1

 

 

(9.23)

(9.24)

Систему уравнений (9.22) в принципе можно решить любым способом (матрич- ным способом, по формулам Крамера, методом Гаусса или Жордана Гаусса). Однако нужно принять все способы сохранения точности решения. Матрица коэффициентов системы является симметрической (так как Kis = Ksi). Кроме того, коэффициенты могут значительно различаться по абсолютной величине. Эти обстоятельства часто приводят к неустойчивости решений системы.

Для упрощения структуры аппроксимирующей функции рекомендуется провес- ти подробный анализ корреляционной матрицы с целью выявления тех аргументов, ко- торые наиболее существенно влияют на величину функции:

 

1

r*

r*

...

r*

 

 

12

13

 

1k

 

 

 

r*

1

r*

...

r*

 

21

 

23

 

2k

r*

r*

1

...

r*

 

31

32

 

 

3k

...

...

... ... ...

 

*

*

*

...

1

rk1

rk 2

rk 3

 

*

*

*

...

*

ry1

ry2

ry3

ryk

r1*y r2*y r3*y

...

rky*

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

*

 

*

 

 

, r =

Kis

, r =

K ys

.

σ*i σ*s

 

 

is

iy

σ*y σ*s

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Если найдутся две переменные, для которых ris* 1, то одну из этих переменных можно не учитывать. Если найдётся переменная, для которой riy* 0, то эту перемен- ную также можно не учитывать.

Рассмотрим подробнее случай двух аргументов. Пусть аппроксимирующая функ- ция имеет вид: y = b + axx + azz. Имеется n групп измерений (xj, zj, yj), j = 1, 2, …, n. Тогда

b = m*y axm*x azm*z ,

*

1

n

*

1

n

*

1

где my =

 

y j , mx =

 

xj , mz =

 

 

 

n

 

n j=1

 

n j=1

 

n

x j . Имеем систему:

j=1

K*

a

x

+K*

a

z

= K*

 

 

11

 

12

 

1y

.

 

*

 

 

*

 

 

*

K21ax

+K22 az

= K2y

 

 

 

 

 

 

 

 

 

 

Решая систему по правилу Крамера, находим:

 

K *

K *

K *

K *

 

 

K *

K *

K *

K *

 

a*x =

1y

22

2 y

12

,

a*z =

2 y

11

1y

21

.

(9.25)

K11* K22* K21* K12*

 

 

 

 

 

 

 

K11* K22* K21* K12*

 

143

Теория вероятностей и математическая статистика

Здесь коэффициенты выражены через центральные моменты второго порядка, т.е. коэффициенты ковариаций и дисперсии (Kii = σi2 дисперсия i-ой величины). Можно вы- разить коэффициенты через коэффициенты корреляции, пользуясь тем, что Kis = risσiσs:

 

σ*

 

r*2

r* r*

 

σ*

 

r*2

r* r*

 

 

a*x =

y

 

xz

yz xz

, a*z =

y

 

xz

yx

xz

.

(9.26)

σ*

1 r* 2

σ*

1 r* 2

 

 

y

 

 

xz

 

z

 

 

xz

 

 

 

Заметим, что если отсутствует зависимость между аргументами функции, т.е. rxz* 0, то каждый коэффициент по структуре совпадает с соответствующим коэффициентом одномерной линейной регрессии.

Остаточная дисперсия оценивается формулой

 

1

n

 

Dост* =

[(y j my* ax* (x j mx* ) az* (z j mz* )]2 .

(9.27)

n 3

 

j=1

 

Отметим, что в случае двух аргументов обобщённый коэффициент корреляции можно вычислить по формуле

 

 

r*2

+r*2

2r

*

r*

r*

 

R2

=

xy

zy

xy

zy

xz

.

(9.28)

 

1 r*2

 

 

 

 

 

 

 

xz

 

 

 

 

 

9.4.Одномерный нелинейный регрессионный анализ

Всоответствии с общими положениями, при нелинейном анализе можно приме- нять любые нелинейные функции, имея в виду структуру (9.2). Если для выбора аппрок- симирующей функции нет никакой дополнительной информации, то в качестве такой функции берут многочлены. Полагая в (9.9) q = 2, q = 3 и т.д., можно рассмотреть случай квадратичной аппроксимирующей функции, кубической и т.д. Например, для аппрок- симирующей функции вида y = ax2 + bx + c (q = 2) неизвестные коэффициенты определя- ются следующей системой уравнений:

 

n

4

n

3

n

2

=

n

2

 

a xi

+ b xi

+ c xi

yi xi

 

 

i = 1

 

i = 1

 

i = 1

 

 

i = 1

 

 

 

n

3

n

2

n

 

=

n

.

(9.29)

a xi

+ b xi

+ c xi

yi xi

i = 1

 

i = 1

 

i = 1

 

 

i = 1

 

 

 

n

2

n

 

+ cn =

n

 

 

 

 

a xi

+ b xi

yi

 

 

 

i = 1

 

i = 1

 

 

i = 1

 

 

 

После определения оценок неизвестных коэффициентов (a*, b*, c*) остаточная дис- персия находится по общей формуле

 

1

n

~

2

 

~

 

*

2

 

*

 

*

 

 

 

 

 

 

 

 

Dост =

 

[ yi yi ]

 

, где

yi

= a

 

xi

+ b

 

xi + c

 

.

 

 

 

 

 

 

n 3 i=1

 

 

 

 

 

 

 

 

 

 

 

 

Оценка корреляционного отношения определяется по формуле

η*y2/x = 1 DDост* . y

(9.30)

(9.31)

Пример 9.2. При исследовании зависимости между случайными величинами X и Y была получена следующая таблица измерений соответствующих значений этих величин:

xi: 1,3

1,5

1,5

1,8

1,9

2,0

2,1

2,4

2,4

2,5

yi: 0,2

0,8

1,2

1,1

1,8

3,2

2,5

3,1

3,4

3,8

Аппроксимировать статистическую связь между Y и X многочленом второго по-

рядка.

144

Регрессионный анализ

Вносим данные в таблицу, в которой вычисляем все необходимые суммы, которые фигурируют в системе уравнений (9.29):

x

y

x2

x3

x4

xy

yx2

y2

(y–y*)2

1,3

4,1

1,69

2,197

2,8561

5,33

6,929

16,81

0,2134

1,5

6,2

2,25

3,375

5,0625

9,3

13,95

38,44

0,3249

1,5

8,1

2,25

3,375

5,0625

12,15

18,225

65,61

1,7689

1,8

9,3

3,24

5,832

10,4976

16,74

30,132

86,49

0,5213

1,9

11,4

3,61

6,859

13,0321

21,66

41,154

129,96

0,0961

2

12,2

4

8

16

24,4

48,8

148,84

0,0025

2,1

13,7

4,41

9,261

19,4481

28,77

60,417

187,69

0,2480

2,4

14,8

5,76

13,824

33,1776

35,52

85,248

219,04

2,2801

2 4

16,2

5,76

13,824

33,1776

38,88

93,312

262,44

0,0121

2,5

18,4

6,25

15,625

39,0625

46

115

338,56

1,1449

19,40

114,4

39,22

82,172

177,3766

238,75

513,167

1493,88

6,6122

В последней строке таблицы приводятся суммы элементов столбцов. Таким обра- зом, получаем систему:

177 ,38 a + 82 ,17 b + 39 ,22 c

= 513 ,17

 

 

 

 

 

82

,17 a + 39 ,22 b + 19 ,4c = 238 ,75 .

 

 

 

 

 

 

 

 

 

 

39

,22 a + 19 ,4b + 10 c = 114 ,4

 

 

 

 

 

 

 

 

 

Решая систему, находим: a = –0,4; b = 12,16; c

~

= −0,4x

2

+12

,16x 10,57 .

= –10,57; y

 

В последнем столбце таблицы вычислена сумма квадратов отклонений прогнозируемых значений от истинных значений Y. Остаточная дисперсия равна

 

 

 

1

 

 

n

 

 

~

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

[yi

 

 

2

 

 

 

6,612 0,945 .

 

 

 

 

Dост

=

 

 

 

yi

]

 

=

 

 

 

Оценка

дисперсии

Y:

n

3

 

10

3

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1493,9

114,4

 

 

 

 

 

 

 

 

 

 

 

 

 

Dy* =

 

(

)2

 

18,5 .

 

Оценка

корреляционного

отношения:

 

 

 

 

 

 

 

 

10

Dост

10

0,945

 

 

 

 

 

 

 

 

 

*2

= 1

= 1

 

 

0,949.

Такое высокое корреляционного отношения говорит о

ηy /x

 

 

 

 

 

 

 

 

 

Dy*

18,5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

сильной зависимости между величинами.

Если выбирается структура аппроксимирующей функции в виде y = aϕ(x) + b, где ϕ(x) – любая известная нелинейная функция, то рекомендуется сделать замену z = ϕ(x) и рассматривать задачу линейного одномерного регрессионного анализа с аппроксими- рующей функцией y = az + b. Приведём примеры таких замен.

1.y = ax2 + b параболическая аппроксимация. Замена z = x2.

2.y = ax + b гиперболическая аппроксимация. Замена z = x–1.

3.y = aex + b аппроксимация показательной функцией. Замена z = еx.

Можно привести примеры и более сложных аппроксимирующих функций, кото- рые путём одной или нескольких замен переменных сводятся к линейным функциям. Такие замены обычно рекомендуются, хотя общий объём вычислений при таких заменах практически не уменьшается.

Заметим, что здесь в краткой форме изложены только основные положения рег- рессионного анализа. Для более подробного знакомства с регрессионным анализом нуж- но смотреть специальную литературу, посвящённую этому вопросу.

145

Теория вероятностей и математическая статистика

Термины для запоминания

Регрессионный анализ; аппроксимация; аппроксимирующая функция; прогнози- рующая функция; ошибка аппроксимации; остаточная дисперсия; обобщённый ко- эффициент корреляции.

Список контрольных вопросов

1.Какую задачу решает дисперсионный анализ?

2.Что называется аппроксимирующей или прогнозирующей функцией?

3.Какая функция теоретически является наилучшей для прогнозирования в смысле минимума среднего квадрата ошибки прогнозирования?

4.Дайте словесную формулировку задачи регрессионного анализа (постановка задачи).

5.Как классифицируются задачи регрессионного анализа?

6.Что минимизируется в регрессионном анализе и по каким параметрам?

7.Как выбирается структура аппроксимирующей функции в регрессионном анализе?

8.Что такое остаточная дисперсия, что она определяет?

9.Что называют «обобщённым коэффициентом корреляции»?

10.Как определяются оценки корреляционного момента и коэффициента корреляции по экспериментальным данным?

11.В каком случае можно ограничиться получением линейной аппроксимирующей функции при одномерном регрессионном анализе?

12.От каких параметров зависит линейная аппроксимирующая функция в одномерном регрессионном анализе?

13.Как сократить число аргументов аппроксимирующей функции в многомерном ли- нейном регрессионном анализе?

14.Какими особенностями обладает матрица коэффициентов системы уравнений, оп- ределяющей параметры аппроксимирующей функции?

15.В каких случаях задачу нелинейного одномерного регрессионного анализа можно свести к задаче линейного одномерного анализа?

Вопрос для обсуждения

Прибыль торгового предприятия зависит от многих факторов. Попробуйте пере- числить основные факторы и проанализируйте, какие из них имеют взаимные статисти- ческие связи.

146

Применение ЭВМ

ТЕМА 10.

Применение ЭВМ

Студент должен освоить:

ознакомление с пакетами прикладных программ;

приобрести навыки:

применения пакетов прикладных программ для решения задач статистического анализа.

147

Теория вероятностей и математическая статистика

Решение вероятностных задач в среде Microsoft Excel. Средства решения статисти- ческих задач в пакете MathCAD. Специализированные пакеты программ.

Краткое

содержание

10.1. Общие замечания

Для решения задач теории вероятностей и математической статистики можно ис- пользовать любые пакеты программ, предназначенные для решения математических за- дач широкого класса. В настоящее время существует много пакетов программ, в которых предусмотрено решение вероятностных задач и задач математической статистики. Име- ется много и специальных пакетов программ, ориентированных именно на решение ста- тистических задач. Выбор пакета должен определяться квалификацией специалиста в данной области. Специалисту, слабо знакомому с методами теории вероятностей и мате- матической статистики, нецелесообразно выбирать сложный, универсального плана, па- кет программ. Освоение сложного пакета является не всегда простым делом. Кроме того, недостаточно компетентный человек в вопросах статистики не сможет адекватно реаги- ровать на запросы программ, не понимая сути этих вопросов. В таком случае применение компьютера даст только отрицательный результат. В связи с этим изучающим данный курс рекомендуется начинать с простых (в освоении) пакетов универсального характера. Одним из доступных и достаточно простых для освоения пакетов является MathCAD. В этом пакете имеется широкий набор операторов и функций, которые позволяют решать многие задачи теории вероятностей и математической статистики. В среде Excel Microsoft Office также имеются аналогичные функции. Возможности этих пакетов примерно рав- ные, различие заключается, прежде всего, в форме представления информации. В первом пакете программ информация представляется в более естественной форме, привычной по курсу высшей математики. Во втором пакете информация размещается в электронных таблицах. Рассмотрим методику решения задачи линейного программирования в про- граммной среде MathCAD (версии 8 и выше) и в среде Excel Microsoft Office. Эти пакеты программ являются наиболее доступными для рядового пользователя ЭВМ.

10.2. Средства решения статистических задач в пакете MathCAD

Пакет MathCAD предназначен специально для решения математических задач. Он имеет три встроенных редактора: текстовой редактор, графический редактор и редактор математических формул. Это дополняется достаточно мощными средствами реализации процессов вычислений. В связи с этим пакет удобен как для решения задач, так и для оформления документов, содержащих математические формулы и процессы вычисле- ний. Изменение значений параметров вначале документа приводит к пересчёту всех формул, содержащих эти параметры, по всему документу. Это свойство пакета удобно при анализе влияния параметров формулы на результат решения поставленной задачи.

Перечислим кратко некоторые из основных функций, касающиеся обработки экс- периментальных данных. Все эти функции следует искать в меню «Функции» в разделах «Статистика» и «Регрессия».

1. mean(X) – среднее арифметическое измерений, содержащихся в векторе X (оцен- ка математического ожидания).

148

Применение ЭВМ

2.var(X) – смещённая оценка дисперсии (D*), Var(X) – несмещённая оценка дис- персии (S2).

3.line(X, Y) – линейная регрессия вида y = b + ax. Векторы X и Y представляют соот- ветствующие измерения величин X и Y. Результат выдаётся в виде вектора, первая ком- понента которого содержит оценку b, а вторая оценку a.

4.cvar(X, Y) – ковариационный момент.

5.korr(X, Y) – коэффициент корреляции.

6.stderr(X, Y) – остаточная дисперсия после применения линейной регрессии. Рассмотрим пример обработки двух массивов измерений случайных величин X и

Y, поставив задачу оценить математические ожидания и дисперсии этих величин и найти линейную аппроксимацию статистической связи между величинами в виде y = b + ax. Ниже представлена полная распечатка решения данной задами.

Исходные данные задаём в виде векторов-столбцов. Вычислим сначала оценки ма- тематических ожиданий и оценки дисперсий.

 

 

1

 

 

 

 

 

1

 

 

 

2

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

X : =

 

3

 

mean(X ) = 3

Y : =

 

4

 

mean(Y ) = 4 .

 

 

 

 

var(X ) = 2

 

 

7

 

var(Y ) =13,6

 

 

4

 

 

 

 

 

5

 

Var( X ) = 2,5

 

 

9

 

Var(Y ) =17

 

 

 

 

 

 

Определим коэффициент линейной регрессии, ковариационный момент, коэф-

фициент корреляции и остаточную дисперсию.

 

 

 

 

 

 

 

 

 

 

3,8

c var(X,Y) = 5,2

 

corr(X,Y) = 0,997

line(X,Y) =

 

 

 

 

 

 

 

2,6

stderr(X,Y) = 0,365

 

 

 

 

 

 

 

 

 

 

Таким образом, mx* = 3, my* = 4, Dx* = 2, Dy* = 13,6, Sx2 = 2,5, Sy2 = 17. Линия линейной регрессии: y = 2,6x – 3,8. Остаточная дисперсия при такой аппроксимации равна Dост = = 0,365.

Заметим, что этот пример носит чисто иллюстративный характер. Поэтому объём выборки взят очень малым. Из этих же соображений измерения взяты с заведомо боль- шим коэффициентом корреляции. В пакете имеются и много других функции для стати- стических вычислений. В пакете представлен большой набор законов распределения ве- роятностей, позволяющий решать и чисто вероятностные задачи. Читателю предлагается разобраться с ними самостоятельно. Отметим также, что размерность векторов в данном пакете программ ограничена.

10.3. Решение статистических задач в среде Microsoft Excel

Процесс решения задач в среде Excel менее привлекателен, поскольку он не позво- ляет записывать эти задачи в их обычной форме. Перечислим основные функции, кото- рые можно использовать при решении задач теории вероятностей и математической ста- тистики.

1.СРЗНАЧ(Х) – среднее арифметическое измерений, содержащихся в массиве X (оценка математического ожидания)

2.ДИСПР(X) – смещённая оценка дисперсии (D*), ДИСП(X) – несмещённая оцен- ка дисперсии (S2).

149

Теория вероятностей и математическая статистика

3.СТАНДОТКЛОН(Х) – оценка среднего квадратического отклонения (S).

4.СТЬЮДРАСПОБР(1 – α, r) – критическое значение, найденное по распределе- нию Стьюдента для построения доверительного интервала. Здесь α доверительная ве- роятность, r – число степеней свободы.

5.МОДА(Х) – оценка моды случайной величины.

6.МЕДИАНА(Х) – оценка медианы случайной величины.

7.ЭКСЦЕСС(Х) – оценка эксцесса случайной величины.

8.СКОС(Х) – оценка асимметрии распределения случайной величины.

9.ЛИНЕЙН(Y, X) – линейная регрессия вида y = b + ax. Массивы X и Y представ- ляют соответствующие измерения величин X и Y. Результат выдаётся в виде вектора, пер- вая компонента которого содержит оценку b, а вторая оценку a.

10. КОВАР(X, Y) – ковариационный момент.

11. КОРРЕЛ (X, Y) – коэффициент корреляции.

12. СТОШYX(X, Y) – корень квадратный из остаточной дисперсии после примене- ния линейной регрессии.

Массивы можно задавать простым перечислением чисел, или с помощью адресов ячеек, в которых находятся числа, или с помощью задания диапазонов адресов.

Рассмотрим пример обработки двух массивов объёма n = 30 измерений случайных величин X и Y, поставив задачу оценить математические ожидания, дисперсии, моду, ме- диану, асимметрию и эксцесс этих величин и найти линейную аппроксимацию стати- стической связи между величинами в виде y = b + ax. Построим также доверительный ин- тервал для математических ожиданий с коэффициентом доверия 0,95, пользуясь распре- делением Стьюдента. Ниже представлена полная распечатка решения данной задами. Массив Х представлен диапазоном адресов ячеек B2 : G6, а массив Y – диапазоном адресов

B21 : G25.

Исходный массив данных

 

 

2,3

3,9

 

5,4

 

2,8

 

5,1

3,3

 

 

3,8

2,7

 

2,9

 

3,4

 

2,9

3,6

X:

 

4,8

3,5

 

2,8

 

5,3

 

3,5

3,4

 

 

2,4

2,7

 

3,9

 

4,4

 

3,6

4,1

 

 

2,1

4,3

 

3,6

 

4,5

 

3,7

3,2

Оценка математического ожидания

 

3,5967

Оценка дисперсии

 

 

 

 

 

0,7283

Оценка несмещённой дисперсии:

 

 

 

0,7534

Среднее квадратическое отклонение

 

0,868

Критическое значение

 

 

 

 

 

2,0452

Левая граница доверительного интервала

 

3,2725

Правая граница доверительного интервала

 

3,9208

Мода распределения

 

 

 

 

 

3,6

Медиана распределения

 

 

 

 

 

3,55

Асимметрия

 

 

 

 

 

 

 

0,4102

Эксцесс

 

 

 

 

 

 

 

 

–0,34

150