Uch_Orlov_A_I_Ekonometrika_-_M_2002
.pdfгде
|
|
= |
Z1 + Z2 +... + Zn |
− |
|
Z |
|||
|
n |
|||
среднее арифметическое разностей, а |
|
|||
|
|
|
1 |
n |
s(Z ) = |
∑(Z j − Z )2 − |
|
|
n −1 j=1 |
выборочное среднее квадратическое отклонение. Из центральной Предельной Теоремы теории вероятностей и теорем о наследовании сходимости, полученных в монографии [11], вытекает, что
lim P{Q ≤ x} = Φ(x)
n→∞
при всех х, где Ф(х) - функция стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1. Отсюда вытекает правило принятия решений на уровне значимости 5%: если
Q ≤1,96,
то гипотезу однородности математических ожиданий связанных выборок принимают, в противном случае отклоняют. Как обычно, при желании использовать другой уровень значимости применяют в качестве критического значения иной квантиль нормального распределения. Повторим, что использование предельных теорем допустимо при достаточно больших объемах выборки.
Третий уровень моделей проверки однородности связанных выборок - это уровень проверки однородности (совпадения) функций распределения. Необходимо проверить непараметрическую гипотезу наиболее всеохватного вида:
H03 : F(x) = G(x), x R1 ,
где
F (x) = P(xi ≤ x),G(x) = P( yi ≤ x).
При этом предполагается, что все участвующие в вероятностной модели случайные величины независимы (в совокупности) между собой.
Отметим одно важное свойство функции распределения случайной величины Z. Если случайные величины х и у независимы и одинаково распределены, то для H(x)=P(Z<x) выполнено, как нетрудно видеть, соотношение
H(-x)=1-H(x).
Это соотношение означает симметрию функции распределения относительно 0. Плотность такой функции распределения является четной функцией, ее значения в точках х и (-х) совпадают.
Какого типа отклонения от гипотезы симметрии можно ожидать при альтернативных гипотезах?
Как и в случае проверки однородности независимых выборок, в зависимости от вида альтернативной гипотезы выделяют два подуровня моделей. Рассмотрим сначала альтернативу сдвига
H13 : G(x) = F (x + a).
В этом случае распределение Z при альтернативе отличается сдвигом от симметричного относительно 0. Для проверки гипотезы однородности может быть использован критерий знаковых рангов, разработанный Вилкоксоном (см., например, справочник [9, с.46-53]).
Он строится следующим образом. Пусть R(Zj) является рангом |Zj| в ранжировке от меньшего к большему абсолютных значений разностей |Z1|, |Z2|,…,|Zn|, j=1,2,…,n. Положим для j=1,2,…,n
Q(Z j ) = 1, Z j > 0,0, Z j < 0.
Статистика критерия знаковых рангов имеет вид
n
W + = ∑R(Z j )Q(Z j ).
j=1
Таким образом, нужно просуммировать ранги положительных разностей в вариационном ряду, построенном стандартным образом по абсолютным величинам всех разностей.
Для практического использования статистики критерия знаковых рангов Вилкоксона либо обращаются к соответствующим таблицам и программному обеспечению, либо применяют асимптотические соотношения. При выполнении нулевой гипотезы статистика
|
|
|
W + − |
n(n +1) |
|
|
|
W |
++ |
= |
4 |
|
|
||
|
|
n(n +1)(2n +1) |
|
||||
имеет асимптотическое (при n → ∞) |
24 |
|
|
||||
|
стандартное нормальное распределение с |
математическим ожиданием 0 и дисперсией 1. Следовательно, правило принятия решений на уровне значимости 5%: имеет обычный вид если
W ++ ≤1,96,
то гипотезу однородности связанных выборок по критерию знаковых рангов Вилкоксона принимают, в противном случае отклоняют. Как обычно, при желании использовать другой уровень значимости применяют в качестве критического значения иной квантиль нормального распределения. Повторим еще раз, что использование предельных теорем допустимо при достаточно больших объемах выборки.
Альтернативная гипотеза общего вида записывается как
H14 : H (−x0 ) ≠1 − H (x0 )
при некотором х0 . Таким образом, проверке подлежит гипотеза симметрии относительно 0, которую можно переписать в виде
H(x) + H(-x) -1 = 0 .
Для построенной по выборке Zj = хj - уj , j = 1,2,…,n, эмпирической функции распределения Hn(x) последнее соотношение выполнено лишь приближенно:
H n (x) + H n (−x) −1 ≈ 0.
Как измерять отличие от 0? По тем же соображениям, что и в предыдущем пункте, целесообразно использовать статистику типа омега-квадрат. Соответствующий критерий был предложен в работе [17]. Он имеет вид
n
ωn2 = ∑(H n (Z j ) + H n (−Z j ) −1)2 .
j=1
Вработе [17] найдено предельное распределение этой статистики:
lim P(ωn2 |
< x) = S0 (x). |
n→∞ |
|
В табл.1 приведены критические значения статистики типа омега-квадрат для проверки симметрии распределения (и тем самым для проверки однородности связанных выборок), соответствующие наиболее распространенным значениям уровней значимости (расчеты проведены Г.В. Мартыновым).
Табл.1. Критические значения статистики ωn2
|
|
для проверки симметрии распределения |
||
Значение функции |
Уровень значимости |
|
Критическое значение х |
|
распределения S0 (x) |
α =1 − S0 (x) |
|
статистики ωn2 |
|
0,90 |
0,10 |
|
1,20 |
|
0,95 |
0,05 |
|
1,66 |
|
0,99 |
0,01 |
|
2,80 |
|
Как следует из табл.1, правило принятия решений при проверке однородности связанных выборок в наиболее общей постановке и при уровне значимости 5%
формулируется так. Вычислить статистику ωn2 . Если ωn2 <1,66, то принять гипотезу
однородности. В противном случае - отвергнуть. Пример. Пусть величины Zj , j=1,2,…,20, таковы:
20, 18, (-2), 34, 25, (-17), 24, 42, 16, 26, 13, (-23), 35, 21, 19, 8, 27, 11, (-5), 7.
Соответствующий вариационный ряд Z (1) < Z (2) < ... < Z (20) имеет вид: (-23)<(-17)<(-5)<(-2)<7<8<11<13<16<18<19<20<21<24<25<26<27<34<35<42.
Для расчета значения статистики ωn2 построим табл.2 из 7 столбцов и 20 строк, не
считая заголовков столбцов (сказуемого таблицы). В первом столбце указаны номера (ранги) членов вариационного ряда, во втором - сами эти члены, в третьем - значения эмпирической функции распределения при значениях аргумента, совпадающих с членами вариационного ряда. В следующем столбце приведены члены вариационного ряда с обратным знаком, а затем указываются соответствующие значения эмпирической функции распределения. Например, поскольку минимальное наблюдаемое значение равно (-23), то Hn(x)=0 при x<-23, а потому для членов вариационного ряда с 14-го по 20-й в пятом столбце стоит 0. В качестве другого примера рассмотрим минимальный член вариационного ряда, т.е. (-23). Меняя знак, получаем 23. Это число стоит между 13-м и 14-м членами вариационного ряда, 21<23<24. На этом интервале эмпирическая функция распределения совпадает со своим значением в левом конце, поэтому следует записать в пятом столбце значение 0,65. Остальные ячейки пятого столбца заполняются аналогично. На основе третьего и пятого столбцов элементарно заполняется шестой столбец, а затем и седьмой. Остается найти сумму значенийб стоящих в седьмом столбце. Подобная таблица удобна как для ручного счета, так и при использовании электронных таблиц типа Excel.
|
|
|
|
|
Табл.2. Расчет значения статистики ωn2 |
||
|
|
|
|
|
для проверки симметрии распределения |
||
j |
Z(j) |
Hn(Z(j)) |
-Z(j) |
Hn(-Z(j)) |
Hn(Z(j))+ |
(Hn(Z(j))+ |
|
|
|
|
|
|
Hn(-Z(j))-1 |
Hn(-Z(j))-1)2 |
|
1 |
-23 |
0,05 |
23 |
0,65 |
-0,30 |
0,09 |
|
2 |
-17 |
0,10 |
17 |
0,45 |
-0,45 |
0,2025 |
|
3 |
-5 |
0,15 |
5 |
0,20 |
-0,65 |
0,4225 |
|
4 |
-2 |
0,20 |
2 |
0,20 |
-0,60 |
0,36 |
|
5 |
7 |
0,25 |
-7 |
0,10 |
-0,65 |
0,4225 |
|
6 |
8 |
0,30 |
-8 |
0,10 |
-0,60 |
0,36 |
|
7 |
11 |
0.35 |
-11 |
0,10 |
-0,55 |
0,3025 |
|
8 |
13 |
0,40 |
-13 |
0,10 |
-0,50 |
0,25 |
|
9 |
16 |
0,45 |
-16 |
0,10 |
-0,45 |
0,2025 |
|
10 |
18 |
0,50 |
-18 |
0,05 |
-0,45 |
0,2025 |
|
11 |
19 |
0,55 |
-19 |
0,05 |
-0,40 |
0,16 |
12 |
20 |
0,60 |
-20 |
0,05 |
-0,35 |
0,1225 |
13 |
21 |
0,65 |
-21 |
0,05 |
-0,30 |
0,09 |
14 |
24 |
0,70 |
-24 |
0 |
-0,30 |
0,09 |
15 |
25 |
0,75 |
-25 |
0 |
-0,25 |
0,0625 |
16 |
26 |
0,80 |
-26 |
0 |
-0,20 |
0,04 |
17 |
27 |
0,85 |
-27 |
0 |
-0,15 |
0,0225 |
18 |
34 |
0,90 |
-34 |
0 |
-0,10 |
0,01 |
19 |
35 |
0,95 |
-35 |
0 |
-0,05 |
0,0025 |
20 |
42 |
1,00 |
-42 |
0 |
0 |
0 |
Результаты расчетов (суммирование значений по седьмому столбцу табл.2) показывают, что значение статистики ωn2 =3,055. В соответствии с табл.1 это означает, что на
любом используемом в прикладных эконометрических исследованиях уровнях значимости отклоняется гипотеза симметрии распределения относительно 0 (а потому и гипотеза однородности в связанных выборках).
В настоящей главе затронута лишь небольшая часть непараметрических методов анализа числовых эконометрических данных. Обратим вн6имание на непараметрические оценки плотности, которые используются для описания данных, проверки однородности, в задачах восстановления зависимостей и других областях эконометрики. Эконометрические оценки плотности в общем виде рассмотрены в главе 8.
Цитированная литература
1.Новицкий П.В., Зограф И.А. Оценка погрешностей результатов измерений. - Л.: Энергоатомиздат, 1985. - 248 с.
2.Новицкий П.В. Основы информационной теории измерительных устройств. -Л.: энергия, 1968. - 248 с.
3.Боровков А.А. Теория вероятностей. - М.: Наука, 1976. - 352 с.
4.Петров В.В. Суммы независимых случайных величин. - М.: Наука, 1972. - 416 с.
5.Золотарев В.М. Современная теория суммирования независимых случайных величин. - М.:
Наука, 1986. - 416 с.
6.Егорова Л.А., Харитонов Ю.С., Соколовская Л.В.//Заводская лаборатория. - 1976. Т.42,
№10. С. 1237.
7.Артемьев Б.Г., Голубов С.М. Справочное пособие для работников метрологических служб.- М.: Изд-во стандартов, 1982. - 280 с.
8.Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. – М.: Наука, 1983. - 416
с.
9.Холлендер М., Вульф Д. Непараметрические методы статистики. – М.: Финансы и статистика, 1983. - 518 с.
10.Боровков А.А. Математическая статистика. – М.: Наука, 1984. - 472 с.
11.Орлов А.И. Устойчивость в социально-экономических моделях. - М.:Наука,1979. – 296 с.
12.Крамер Г. Математические методы статистики / Пер. с англ. / 2-е изд. - М.: Мир, 1975. –
648с.
13.Гаек Я., Шидак 3. Теория ранговых критериев / Пер. с англ. - М.: Наука, 1971. – 376 с.
14.Смолянский М.Л. Таблицы неопределенных интегралов. - М.: ГИФМЛ, 1961. - 108 с.
15.Методика. Проверка однородности двух выборок параметров продукции при оценке ее технического уровня и качества. – М.: ВНИИ стандартизации, 1987. – 116 с.
16.Камень Ю.Э., Камень Я.Э., Орлов А.И. Реальные и номинальные уровни значимости в задачах проверки статистических гипотез / Заводская лаборатория. 1986. Т.52. № 12. С.55-57.
17.Орлов А.И. О проверке симметрии распределения. – Журнал «Теория вероятностей и ее применения». 1972. Т.17. No.2. С.372-377.
Глава 5. Многомерный статистический анализ
В многомерном статистическом анализе выборка состоит из элементов многомерного пространства. Отсюда и название этого раздела эконометрических методов. Из многих задач многомерного статистического анализа рассмотрим две - восстановления зависимости и классификации.
5.1. Оценивание линейной прогностической функции
Начнем с задачи точечного и доверительного оценивания линейной прогностической функции одной переменной.
Исходные данные – набор n пар чисел (tk , xk), k = 1,2,…,n, где tk – независимая переменная (например, время), а xk – зависимая (например, индекс инфляции, курс доллара США, объем месячного производства или размер дневной выручки торговой точки). Предполагается, что переменные связаны зависимостью
xk = a (tk - tср)+ b + ek , k = 1,2,…,n,
где a и b – параметры, неизвестные статистику и подлежащие оцениванию, а ek – погрешности, искажающие зависимость. Среднее арифметическое моментов времени
tср = (t1 + t2 +…+tn ) / n
введено в модель для облегчения дальнейших выкладок.
Обычно оценивают параметры a и b линейной зависимости методом наименьших квадратов. Затем восстановленную зависимость используют для точечного и интервального прогнозирования.
Как известно, метод наименьших квадратов был разработан великим немецким математиком К. Гауссом в 1794 г. Согласно этому методу для расчета наилучшей функции, приближающей линейным образом зависимость x от t, следует рассмотреть функцию двух переменных
n
f (a,b) = ∑(xi − a(ti −tср ) −b)2 .
i=1
Оценки метода наименьших квадратов - это такие значения a* и b*, при которых функция f(a,b) достигает минимума по всем значениям аргументов. Чтобы найти эти оценки, надо вычислить частные производные от функции f(a,b) по аргументам a и b, приравнять их 0, затем из полученных уравнений найти оценки: Имеем:
∂f (a,b) |
|
n |
|
|
= ∑2(xi −a(ti −tср ) −b)(−(ti −tср )), |
||||
∂a |
||||
|
i=1 |
|
||
|
|
∂f (a,b) |
n |
|
|
|
= ∑2(xi − a(ti −tср ) −b)(−1). |
||
|
|
∂b |
||
|
|
i=1 |
Преобразуем правые части полученных соотношений. Вынесем за знак суммы общие множители 2 и (-1). Затем рассмотрим слагаемые. Раскроем скобки в первом выражении, получим, что каждое слагаемое разбивается на три. Во втором выражении также каждое слагаемое есть сумма трех. Значит, каждая из сумм разбивается на три суммы. Имеем:
∂f (a,b) |
|
|
n |
|
n |
n |
|
= (−2)(∑xi (ti |
−tср ) − a∑(ti −tср )2 |
−b∑(ti −tср )), |
|||
∂a |
|
|||||
|
|
i=1 |
|
i=1 |
i=1 |
|
|
∂f (a,b) |
|
n |
n |
|
|
|
= (−2)(∑xi − a∑(ti −tср ) |
−bn). |
||||
|
|
∂b |
||||
|
|
|
i=1 |
i=1 |
|
Приравняем частные производные 0. Тогда в полученных уравнениях можно сократить множитель (-2). Поскольку
n |
|
∑(ti −tср ) = 0, |
(1) |
i=1 |
|
уравнения приобретают вид |
|
n |
n |
∑xi (ti −tср ) − a∑(ti −tср )2 = 0, |
|
i=1 |
i=1 |
n
∑xi −bn = 0.
i=1
Следовательно, оценки метода наименьших квадратов имеют вид
n
∑xi (ti −tср )
a* = i=n1
∑(ti −tср )2
, b* = xср = |
x1 + x2 +... + xn |
. (2) |
|
n |
|||
|
|
i=1
Всилу соотношения (1) оценку а* можно записать в более симметричном виде:
a * = |
∑n |
( x i − x ср )( t i − t ср ) |
|
|||||||||||
i =1 |
|
|
|
|
|
|
|
|
|
|
|
. |
( 3 ) |
|
|
∑n |
( t i |
|
− t ср |
) 2 |
|
|
|||||||
|
|
|
|
|
|
|
||||||||
|
|
i =1 |
|
|
|
|
|
|
|
|
|
|
|
|
Эту оценку нетрудно преобразовать и к виду |
|
|
|
|
|
|
||||||||
|
|
n |
|
|
1 |
|
n |
n |
|
|
|
|
||
|
|
∑xi ti − |
|
∑xi ∑ti |
|
|||||||||
|
|
|
|
|
||||||||||
a* = |
i=1 |
|
|
n i=1 |
i=1 |
. |
(4) |
|||||||
|
|
|
|
1 |
|
|
||||||||
|
|
n |
|
|
|
n |
|
2 |
|
|
|
|||
|
|
2 |
|
|
|
|
|
|
||||||
|
|
∑ti |
|
− |
|
|
|
|
∑ti |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
i=1 |
|
|
|
n i=1 |
|
|
|
|
|
|||
Следовательно, восстановленная функция, с помощью которой можно |
||||||||||||||
прогнозировать и интерполировать, имеет вид |
|
|
|
|
|
|||||||||
|
|
x*(t) = a*(t - tср)+ b*. |
|
|||||||||||
Обратим внимание на то, что использование tср |
в последней формуле ничуть не |
|||||||||||||
ограничивает ее общность. Сравним с моделью вида |
|
xk = c tk+ d + ek , k = 1,2,…,n.
Ясно, что
c = a, d = b − atср.
Аналогичным образом связаны оценки параметров:
c* = a*, d* = b * −a *tср.
Для получения оценок параметров и прогностической формулы нет необходимости обращаться к какой-либо вероятностной модели. Однако для того, чтобы изучать погрешности оценок параметров и восстановленной функции, т.е. строить доверительные интервалы для a*, b* и x*(t), подобная модель необходима.
Непараметрическая вероятностная модель. Пусть значения независимой переменной t детерминированы, а погрешности ek , k = 1,2,…,n, - независимые одинаково распределенные случайные величины с нулевым математическим ожиданием и дисперсией
σ 2 , неизвестной статистику.
В дальнейшем неоднократно будем использовать Центральную Предельную Теорему (ЦПТ) теории вероятностей для величин ek , k = 1,2,…,n (с весами), поэтому для выполнения ее условий необходимо предположить, например, что погрешности ek , k = 1,2,…,n, финитны или имеют конечный третий абсолютный момент. Однако заострять внимание на этих внутриматематических "условиях регулярности" нет необходимости.
Асимптотические распределения оценок параметров. Из формулы (2) следует,
что
|
a |
n |
|
|
b* = |
∑ (t |
|||
n |
||||
|
i = |
1 |
Согласно ЦПТ оценка b*
i |
− t ср ) + b + |
1 |
∑n |
ei = b + |
|
n |
|||||
|
|
i =1 |
|
имеет асимптотически
1 |
∑n |
ei . (5) |
|
n |
|||
i =1 |
|
нормальное распределение с
математическим ожиданием b и дисперсией σ 2 / n, оценка которой приводится ниже. Из формул (2) и (5) вытекает, что
xi − xср = a(ti −tср )
(xi − xср )(ti −tср ) =
|
1 |
n |
|
|
+b + ei −b − |
∑ei , |
|
|
|
|
|
|
||
|
n i=1 |
(ti −tср ) ∑ei . |
||
a(ti −tср )2 + ei |
(ti −tср ) − |
|||
|
|
|
|
n |
|
|
|
n |
i=1 |
Последнее слагаемое во втором соотношении при суммировании по i обращается в 0, поэтому из формул (2-4) следует, что
n |
|
|
|
(ti −tср ) |
|
|
|
a* = a + ∑ci ei , |
ci = |
|
|
|
|
. (6) |
|
|
n |
|
|||||
i=1 |
|
∑(ti −tср )2 |
|
|
|
||
|
a * |
|
i=1 |
|
|
|
|
Формула (6) показывает, что оценка |
|
является |
асимптотически нормальной с |
||||
математическим ожиданием a и дисперсией |
|
|
|
|
|
|
|
n |
|
|
|
σ 2 |
|
|
|
D(a*) = ∑ci2 D(ei ) = |
|
|
|
. |
|||
|
n |
|
|||||
i=1 |
|
|
|
∑(ti −tср )2 |
i=1
Отметим, что многомерная нормальность имеет быть, когда каждое слагаемое в формуле
(6) мало сравнительно со всей суммой, т.е.
|
n |
limmax | ti −tср | /{∑(ti −tср )2 }1/ 2 = 0 . |
|
n→∞ |
i=1 |
Из формул (5) и (6) и исходных предположений о погрешностях вытекает также несмещенность оценок параметров.
Несмещенность и асимптотическая нормальность оценок метода наименьших квадратов позволяют легко указывать для них асимптотические доверительные границы (аналогично границам в предыдущей главе) и проверять статистические гипотезы, например, о равенстве определенным значениям, прежде всего 0. Предоставляем читателю возможность выписать формулы для расчета доверительных границ и сформулировать правила проверки упомянутых гипотез.
Асимптотическое распределение прогностической функции. Из формул (5) и (6)
следует, что
M (x * (t)) = M{a * (t − tср ) + b*} = M (a*)(t − tср ) + M (b*) = a(t − tср ) + b = x(t),
т.е. рассматриваемая оценка прогностической функции является несмещенной. Поэтому
D(x * (t)) = D(a*)(t −tср )2 + 2M{(a * −a)(b * −b)(t −tср )} + D(b*).
При этом, поскольку погрешности независимы в совокупности и M (ei ) = 0 , то
|
1 |
n |
|
|
|
|
1 |
|
n |
|
M{(a * −a)(b * −b)(t − tср )} = |
∑ci (t −tср )M (ei2 ) = |
(t − tср )σ 2 |
∑ci = 0 . |
|||||||
n |
n |
|||||||||
Таким образом, |
i=1 |
|
|
|
|
|
i=1 |
|||
|
|
|
|
|
|
|
|
|
||
|
|
|
1 |
|
(t −t )2 |
|
|
|
|
|
D(x * (t)) = σ 2 { |
|
+ |
ср |
} . |
|
|||||
|
n |
|
||||||||
|
|
|
n |
|
|
|
|
|||
|
|
|
∑(ti −tср )2 |
|
|
|
|
i=1
Итак, оценка x * (t) является несмещенной и асимптотически нормальной. Для ее практического использования необходимо уметь оценивать остаточную дисперсию
M (ei2 ) = σ 2 .
Оценивание остаточной дисперсии. В точках tk , k = 1,2,…,n, имеются исходные
значения зависимой переменной xk |
и восстановленные значения x*(tk). Рассмотрим |
остаточную сумму квадратов |
|
n |
n |
SS = ∑(x * (ti ) − x(ti ))2 =∑{(a * −a)(ti −tср ) + (b * −b) − ei )2 . |
|
i=1 |
i=1 |
В соответствии с формулами (5) и (6)
n |
n |
n |
|
SS = ∑{(ti −tср )∑c j e j + |
1 |
∑e j − ei }2 |
|
n |
|||
i=1 |
j=1 |
j=1 |
n |
n |
1 |
|
n |
|
= ∑{∑{c j (ti −tср ) + |
}e j − ei }2 |
= ∑SSi . |
|||
|
|||||
i=1 |
j=1 |
n |
i=1 |
Найдем математическое ожидание каждого из слагаемых:
|
|
|
n |
1 |
|
|
|
|
1 |
|
|
|
|
M (SSi ) = ∑{c j (ti −tср ) + |
}2 |
σ 2 |
− 2{ci (ti −tср ) + |
|
)σ 2 +σ 2 . |
|
|||||
|
|
|
|
|||||||||
|
|
|
j=1 |
n |
|
|
|
n |
|
n → ∞имеем |
||
Из |
сделанных |
ранее |
предположений |
вытекает, |
что |
при |
||||||
M (SSi ) → σ 2 ,i =1,2,..., n, следовательно, |
по |
закону больших |
чисел статистика SS/n |
|||||||||
является состоятельной оценкой остаточной дисперсии σ 2 . |
|
|
|
|
|
|||||||
|
Получением |
состоятельной оценкой |
остаточной |
|
|
дисперсии |
завершается |
последовательность задач, связанных с рассматриваемым простейшим вариантом метода наименьших квадратов. Не представляет труда выписывание верхней и нижней границ для прогностической функции:
xверх (t) = a * (t −tср ) +b * +δ(t), xнижн (t) = a * (t −tср ) + b * −δ(t),
где погрешность δ (t) имеет вид
δ(t) =U ( p)σ *{ |
1 |
|
(t −tср )2 |
1/ 2 |
|
|
SS 1/ 2 |
|
|
+ |
|
} |
, |
σ* = |
|
. |
|
n |
n |
n |
||||||
|
|
∑(ti −tср )2 |
|
|
|
|
||
|
|
|
i=1 |
|
|
|
|
|
Здесь p - доверительная вероятность, U(p), как и в главе 4 - квантиль нормального распределения порядка (1+р)/2, т.е.
Φ(U ( p)) = 1 +2 p .
При p= 0,95 (наиболее применяемое значение) имеем U(p) = 1,96. Для других доверительных вероятностей соответствующие значения квантилей можно найти в статистических таблицах (см., например, наилучшее в этой сфере издание [1]).
Сравнение параметрического и непараметрического подходов. Во многих литературных источниках рассматривается параметрическая вероятностная модель метода наименьших квадратов. В ней предполагается, что погрешности имеют нормальное распределение. Это предположение позволяет математически строго получить ряд выводов. Так, распределения статистик вычисляются точно, а не в асимптотике, соответственно вместо квантилей нормального распределения используются квантили распределения Стьюдента, а остаточная сумма квадратов SS делится не на n, а на (n-2). Ясно, что при росте объема данных различия стираются.
Рассмотренный выше непараметрический подход не использует нереалистическое предположение о нормальности погрешностей (см. начало главы 4).. Платой за это является асимптотический характер результатов. В случае простейшей модели метода наименьших квадратов оба подхода дают практически совпадающие рекомендации. Это не всегда так, не всегда два подхода бают близкие результаты. Напомним, что в задаче обнаружения выбросов методы, опирающиеся на нормальное распределение, нельзя считать обоснованными, и обнаружено это было с помощью непараметрического подхода (см. главу
4).
Общие принципы. Кратко сформулируем несколько общих принципов построения, описания и использования эконометрических методов анализа данных. Во-первых, должны быть четко сформулированы исходные предпосылки, т.е. полностью описана используемая вероятностно-статистическая модель. Во-вторых, не следует принимать предпосылки, которые редко выполняются на практике. В-третьих, алгоритмы расчетов должны быть корректны с точки зрения математико-статистической теории. В-четвертых, алгоритмы должны давать полезные для практики выводы.
Применительно к задаче восстановления зависимостей это означает, что целесообразно применять непараметрический подход, что и сделано выше. Однако предположение нормальности, хотя и очень сильно сужает возможности применения, с чисто математической точки зрения позволяет продвинуться дальше. Поэтому для первоначального изучения ситуации, так сказать, "в лабораторных условиях", нормальная модель может оказаться полезной.
Пример оценивания по методу наименьших квадратов. Пусть даны n=6 пар чисел (tk , xk), k = 1,2,…,6, представленных во втором и третьем столбцах табл.1. В соответствии с формулами (2) и (4) выше для вычисления оценок метода наименьших квадратов достаточно найти суммы выражений, представленных в четвертом и пятом столбцах табл.1.
Табл.1. Расчет по методу наименьших квадратов при построении линейной прогностической функции одной переменной
i |
t |
i |
x |
2 |
ti xi |
a *ti |
) |
xi |
− ) |
( xi |
− ) |
2 |
|
|
i |
ti |
xi |
xi |
xi |
) |
|||||
|
|
|
|
|
|
|
|
|
|
|||
1 |
1 |
12 |
1 |
12 |
3,14 |
12,17 |
-0,17 |
0,03 |
|
|||
2 |
3 |
20 |
9 |
60 |
9,42 |
18,45 |
1,55 |
2,40 |
|
|||
3 |
4 |
20 |
16 |
80 |
12,56 |
21,59 |
-1,59 |
2,53 |
|
|||
4 |
7 |
32 |
49 |
224 |
21,98 |
31,01 |
0,99 |
0,98 |
|
|||
5 |
9 |
35 |
81 |
315 |
28,26 |
37,29 |
-2,29 |
5,24 |
|
|||
6 |
10 |
42 |
100 |
420 |
31,40 |
40,43 |
1,57 |
2,46 |
|
|||
Σ |
34 |
161 |
256 |
1111 |
|
|
0,06 |
13,64 |
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|