Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Методика по аппроксимации

.pdf
Скачиваний:
17
Добавлен:
06.03.2016
Размер:
1.25 Mб
Скачать

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

[yi – (a xi2 + b xi+ c )] xi2 = 0

 

 

 

 

i=n1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

[yi – (a x2

+ b xi+ c )] xi = 0

 

 

 

 

i=1

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

[yi – (a x2

+ b xi+ c )] = 0

 

 

 

 

i=1

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

или, раскрывая скобки, производя суммирование и деля на n,

 

 

n

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

n

 

 

 

 

n

 

xi2 yi

 

 

 

xi4

 

 

 

 

xi3

xi2

 

 

 

i=1

 

 

 

a

 

 

i=1

 

b

 

 

i=1

 

 

c

 

i=1

= 0

 

n

 

 

 

 

 

n

 

 

n

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

n

 

 

 

 

n

 

xi yi

 

 

 

 

x3

 

 

 

 

 

x2

 

xi

(6)

i=1

 

 

 

 

 

 

 

i=1 i

 

 

 

 

 

i=1

i

 

i=1

 

 

 

 

 

a

 

 

 

 

b

 

 

 

 

 

c

 

 

 

= 0

n

 

 

 

n

 

n

 

 

n

n

 

 

 

 

 

 

n

 

 

 

 

 

 

n

 

 

 

 

 

 

 

yi

 

 

x2

 

 

 

xi

 

 

 

 

 

 

 

i=1

 

 

 

 

 

i=1

i

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

a

 

 

 

 

 

 

b

 

 

 

 

 

c = 0 .

 

n

 

 

 

 

n

 

 

 

 

 

n

 

Коэффициенты системы (6) представляют собой статистические мо-

менты, легко определяемые по

экспериментальным

данным

 

 

 

n

 

 

 

 

 

 

 

xk

y p

 

 

 

 

i=1

i

i

 

(см. табл. 1). Введя их обозначения как

 

 

 

= αk p , получаем за-

 

 

n

 

пись системы (6) в более компактном виде

 

 

 

 

 

 

 

α40

a α30 b α20

c = α21

 

 

a α20 b α10

c = α11

(7)

α30

α20

a α10 b α00

c = α01 .

 

Закон образования коэффициентов в уравнениях (7) нетрудно подметить: в левой части фигурируют только моменты величины x в

10

убывающем порядке; в правой части стоят моменты системы (xi , yi), причем порядок момента по x убывает от уравнения к уравнению, а порядок по y всегда остается первым.

Аналогичными по структуре уравнениями будут определяться коэффициенты полинома любого другого порядка.

Таким образом, в случае, когда экспериментальная зависимость выравнивается по методу наименьших квадратов полиномом некоторой степени, то коэффициенты этого полинома находятся решением системы линейных уравнений, коэффициенты которой представляют собой статистические моменты случайных величин xi и yi , представленныхв статистической выборке (табл. 1).

Почти так же просто решается задача сглаживания экспериментальной зависимости методом наименьших квадратов в случае, когда сглаживающая функция представляет собой не полином, а сумму произвольных заданных функций ϕ1(x), ϕ2(x), ... , ϕk(x), с коэффициентами a1 , a2 , ... , ak , на чем мы не будем подробно останавливаться.

Понятно, что поскольку система уравнений (7) является линейной, то решить ее средствами вычислительной техники не представляет никакого труда, так же как и рассчитать ее коэффициенты.

1.2. Оценка адекватности модели

Математическая модель отображает лишь ограниченный круг свойств объекта, так как более полное охватывание его характеристик приводит к чрезмерному росту сложности модели, что существенно снижает ее практическую ценность. Поэтому на практике стремятся к разумному упрощению модели, что делает ее более экономичной. Таким образом, в противоречие вступают два основных качественных свойства математическихмоделей – точность и экономичность.

Точность модели оценивается наибольшей относительной погрешностью выходного параметра из множества Y, определяемой по формуле

~

*

~

(8)

ε = ( y

y

) / y

~

где y – значение выходного параметра, полученное экспериментально; y* – значение, рассчитанное с помощью модели.

11

Адекватность – это способность математической модели описывать заданные свойства реального объекта с погрешностью не превышающей заданной δ, т.е.

ε δ .

(9)

Поскольку выходные параметры испытывают зависимость от внешних параметров Q, то и их погрешность подвержена тому же влиянию, т.е. ε=ε(Q). В этом случае неравенство (9) принимает вид

 

 

ε(Q) ≤ δ

 

 

 

 

 

 

 

 

(10)

и определяет область в пространстве параметров

Q, которая называ-

ется областью адекватности ωa.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рассмотрим простейший случай, когда множество Q состоит из

одного параметра, например,

ε

 

 

 

 

 

 

 

 

 

 

 

 

температуры

окружающей

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

среды t, (т.е Q ={t}), зависи-

0,15

 

 

 

 

 

 

 

 

 

 

 

 

мость

погрешности имеет

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

δ

 

 

 

 

 

 

 

 

вид ε=0,025 t2, а заданная

 

 

 

 

 

 

 

 

 

 

 

 

максимальная

величина по-

0,10

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

грешности δ равна 0,1. В

 

 

 

 

 

 

 

 

 

 

 

 

 

этом

случае

пространство

0,05

 

 

 

 

 

 

 

 

 

 

 

 

внешних параметров являет-

 

 

 

 

 

 

 

 

 

ωa

 

ся одномерным и определя-

 

 

 

 

 

 

 

 

 

 

ется соотношением t(2730,

0

 

 

 

 

 

 

 

 

 

 

 

 

–2

–1

0

1

 

t0C

+∞]. Неравенство (10) при-

 

 

мет вид 0,025 t2≤ 0,1 и опре-

 

 

 

 

Рис. 2

 

 

 

 

 

 

 

делит

область

адекватности

 

 

 

 

 

 

 

 

 

 

 

 

 

ωa = | t(–20, +20].

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Необходимо обратить внимание на то обстоятельство,

что на

точность теоретических моделей оказывают влияние полнота описания свойств объекта и воздействие внешних случайных «шумовых» факторов, а на точность эмпирических моделей – кроме названных факторов еще и правильность выбора вида модели (2).

В большинстве случаев при разработке модели не стремятся определять область ее адекватности, а делают проверку на принадлежность этой области. Для этих целей используются статистические методы оценки (см. подробно в /4/).

12

Рассмотрим оценку правильности выбора эмпирической модели или, как еще говорят, гипотезы. При такой оценке можно совершить ошибки двух родов. Ошибка первого рода состоит в том, что проверяемая гипотеза отвергается в то время, когда она в действительности верна. Ошибка второго рода состоит в том, что проверяемая гипотеза принимается в то время, когда она действительно неверна.

На практике пользуются критериями значимости проверяемой гипотезы, показывающими вероятность риска сделать ошибку первого рода. В исследованиях почти всегда эта вероятность принимается равной 0,05. Не останавливаясь на статистическом смысле (см. /4/) покажем такой критерий, называемый критерием Пирсона и основанный на использовании статистики χ2, вычисляемой для рассматриваемой нами модели (2) следующим образом1:

y

~

yi y*i

 

 

 

 

n

~

 

y

*

)

2

 

 

 

 

 

( y

i

 

 

 

 

 

 

 

χ2

 

 

i

 

 

 

 

 

 

 

 

 

 

~

 

 

 

 

 

 

 

i=1

 

 

 

yi

 

 

 

 

 

 

 

 

Вычисленное

таким

 

образом

 

 

 

значение статистики χ2 сравнивают с

 

 

 

табличным значением χ2

 

 

.

 

Данная

 

 

 

 

 

табл

 

 

 

 

 

 

 

 

 

таблица (см. приложение ) составлена

 

 

 

для χ2 распределения

и позволяет сде-

 

 

 

лать оценку, задаваясь уровнем значи-

0

xi

x

мости (т.е. указанной выше вероятно-

стью P) и степенью свободы ν данной

 

 

 

 

Рис. 3

 

статистики. Если выполняется соотно-

 

 

 

шение

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

χ2 <

χ2

,

 

 

 

 

 

 

 

 

 

 

 

табл

 

то проверяемая гипотеза принимается. Под степенью свободы в статистике понимается разность между числом опытов n (в нашем случае – количеством эмпирических точек на рис. 1 и рис. 3) и числом коэффициентов, констант, статистик и др., которые вычисляются по результатам этихопытов независимо друг от друга – k:

1 Смысловое значение использованных переменных и величин соответствует выражениям (4) и (8) и поясняется на рис. 3..

13

ν = n k .

(13)

Так для рассмотренного выше полинома второй степени k = 3 по количествуопределяемыхкоэффициентов (a, b, c).

Для предварительной оценки качества модели иногда используют так называемый коэффициент детерминации R2. Коэффициент детерминации не позволяет давать окончательного заключения об адекватности модели, для него отсутствуют таблицы критическихзначений, подвержен влиянию внешних факторов, может привести к ошибочному выводу. Однако использование его разработчиками программного приложения «Microsoft Excel» для оценки качества аппроксимации заставляет нас рассмотреть коэффициент детерминации и вычисляемый на его основе индекс корреляции1 R подробнее.

Формально обе оценки (R2 и R) определяются с помощью соотношения для общей (полной) дисперсии σ2y признака (выходного па-

раметра) y

относительно его математического ожидания

µy : σy2 = σϕ2 + σε2

, где σϕ2 – дисперсия функции регрессии ϕ(x) (см. (2))

относительно µy , σ2ε – дисперсия абсолютной погрешности модели2

~

*

), характеризуемой разностью между эмпирическими и расчет-

( yi

yi

ными значениями yi .

Для сгруппированных данных, например, при использовании корреляционной таблицы оценкой σ2ϕ является дисперсия

 

 

1

k

 

 

 

2

=

– –

2

,

(14)

Sy

n

nxj ( y yi)

 

 

 

j=1

 

 

 

 

 

где y – среднее статистической выборки { yi } (см. табл. 1), являющее-

 

n

1

( yi); k – число интер-

ся оценкой µy и рассчитываемое как y =

n

 

 

i=1

1Не следует путать с коэффициентом корреляции.

2См. пояснения к формуле (8).

14

валов группировки по x ; nxj – частота попадания в j-й интервал по x ; yj

1

 

nj

 

( yij),

– среднее значение y в j-м интервале, т.е. yj =

nj

 

 

 

 

i=1

где yij , nj – значение yi и количество точек статистики (см. табл. 1), попадающихв j-й интервал по x.

Оценкой σ2ε является дисперсия

 

 

 

 

 

n

 

 

 

Sϕ2

(x)

= 1

(ϕ(xi) – yi)2 .

(15)

 

 

 

n

i=1

 

 

 

Коэффициент детерминации рассчитывается следующим об-

разом

 

 

σϕ2

 

 

σε2 .

 

2

 

 

 

 

R =

 

σy2

= 1–

 

 

(16)

 

σy2

Его величина показывает, какая доля общей дисперсии признака y определяется (детерминируется) дисперсией функции регрессии. Остав-

шаяся доля общей дисперсии, т.е. 1– R2 = σ2ε , объясняется действием

σ2y

неконтролируемыхфакторов («помехами») и определяет верхнюю границу точности предсказания y по x. Если, например, коэффициент детерминации равен 0,4 , то изменчивость значений переменной y около линии регрессии (модели) составляет (1– 0,4) от исходной дисперсии; другими словами, 40 % от исходной изменчивости могут быть объяснены, а 60 % остаточной изменчивости остаются необъясненными. В идеале желательно иметь объяснение если не для всей, то хотя бы для большей части исходной изменчивости, т.е. значение R2 близкое к 1,0 показывает, что модель объясняет почти всю изменчивость выходного параметра.

При нелинейной форме модели (2) показатель R2 называется также корреляционным отношением.

Индекс корреляции характеризует тесноту парной связи. Он является величиной неотрицательной. Свойства индекса корреляции во многом похожи на свойства коэффициента корреляции Kxy (см. подробнее в /4/), но при этом 0 ≤ Kxy R ≤ 1. Если R = | Kxy |, то

15

имеет место точная линейная корреляционная зависимость. В случае R = 1 , т.е. при σ2ε = 0 , отсутствует влияние прочихвнешнихфакторов и

все распределение сконцентрировано на кривой регрессии, т.е. между y и x присутствует функциональная зависимость. При R = 0 связь пол-

ностью отсутствует (σ2ϕ = 0 ).

Более высокое значение индекса корреляции по сравнению с величиной коэффициента корреляции свидетельствует о том, что подгонка нелинейной моделью (2) имеет преимущества по сравнению с прямой линией, т.е. регрессия нелинейна.

Индекс корреляции вычисляется по формуле

R =

1–

σε2

 

,

 

(17)

σy2

 

 

 

 

 

 

 

т.е. как корень квадратный

 

 

Таблица 2

из коэффициента

детерми-

 

 

 

нации.

 

 

 

 

Значение R

Сила связи

 

 

 

 

0,1

– 0,3

слабая

Для характеристики

0,3

– 0,5

умеренная

силы связи по значению ин-

0,5

– 0,7

заметная

декса корреляции (впрочем

0,7

– 0,9

высокая

как и коэффициента корре-

ляции) используется

шкала

0,9

– 0,99

весьма высокая

Чеддока, табл. 2.

При зна-

 

 

 

чениях R ниже 0.7 величина коэффициента детерминации R2 всегда будет меньше 50 %, т.е. менее половины общей дисперсии признака y определяется дисперсией функции регрессии (2). Такие модели связи не имеют практического значения.

16

2. Методика аппроксимации

2.1. Табличное и графическое представление статистических данных

Рис.4

Построение эмпирической модели (2) начинается с размещения статистической таблицы (см. табл. 1) на листе приложения «Microsoft Excel». Статистики { xi } и { yi } размещаются в ячейках листа по столбцам или строкам.

Допустимы различные варианты размещения:

логически выстроенный (см. рис. 4);

раздельное размещение статистик { xi } и { yi } на поле листа;

смешанное размещение статистик { xi } и { yi }, т.е. одна размещается в строке, а другая – в столбце.

17

мастера Пиктограммадиаграмм

Рис. 5

Следующим этапом является графическое представление стати-

 

стических

данных

в

координатной

 

плоскости. Для этого необходимо

 

активизировать

работу

«мастера

 

диаграмм», что осуществляется либо

 

нажатием

 

 

соответствующей

 

пиктограммы на основной панели,

 

либо через опцию «Вставка» глав-

 

ного меню рис. 5.

 

 

 

 

 

В открывшемся

окне

диалога

 

на шаге 1 необходимо выбрать тип

 

диаграммы «Точечная» рис. 6 и на-

 

жать кнопку«Далее».

 

 

 

Рис. 6

На

шаге

2

в

окне

диалога

необходимо выбрать вкладку

«Ряд»

 

( поз. 1 на рис. 7)

и нажать

кнопку

«Добавить» (поз. 2 на рис. 7). В поле «Ряд» (поз. 3 на рис. 7) появится информация о формируемой статистике («Ряд 1»).

18

Далее в поле значений X ( поз. 4 на рис. 7) необходимо разместить информацию о ячейках, содержащих статистику {xi}. Для этого необходимо перевести фокус на данное поле, переместив на него кур

1

3

4

5

2

Рис. 7

сор «мыши» и щелкнув левой кнопкой1, либо с помощью клавиши «Tab». Затем, не закрывая диалогового окна, необходимо выделить на основном листе ячейки, содержащие размещаемую статистику. Для

1 Далее не будем уточнять вид кнопки, если она левая.

19