Скачиваний:
40
Добавлен:
02.05.2014
Размер:
159.28 Кб
Скачать

Методическое пособие

для студентов II-III курсов экономического факультета НГУ

Эконометрия I: регрессионный анализ

Курс эконометрии I состоит из двух частей: регрессионный анализ и временные ряды. Данное пособие предназначено для 1-й части курса, которая изучается в IY семестре.

Пособие включает 7 разделов: 1. Описательная статистика.

2.Случайные ошибки измерения.

3.Алгебра линейной регрессии.

4.Основная модель линейной регрессии.

5.Гетероскедастичность и автокорреляция ошибок.

6.Ошибки измерения факторов и фиктивные переменные.

7.Оценка параметров систем уравнений.

Каждый раздел открывается кратким обзором теоретического материала, затем следуют теоретические вопросы и задания, разбираемые на лекциях и семинарских занятиях, вслед за ними приводится набор задач и упражнений, которые решаются на практических занятиях и самостоятельно. Завершается каждый раздел списком литературы.

Теоретическая часть пособия подготовлена по материалам лекционного курса, прочитанного в 1992-96 гг., практическая часть в значительной мере построена по результатам работы по программе TASIS-TEMPUS в 1995-96 гг. .

Авторы: В.И. Суслов, Н.М. Ибрагимов, Б.Б. Карпенко, Е.А. Коломак.

1. Описательная статистика

1.1. Ряды наблюдений и их характеристики

 

 

 

xi , i =

1, ...,N

ряд наблюдений за непрерывной случайной переменной x,

вариационный ряд, выборка.

 

 

 

 

 

 

 

 

x =

 

1 N

x i

 

 

 

 

 

 

 

 

 

 

 

 

 

среднеарифметическое значение;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N i = 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x i

 

 

 

 

 

 

 

 

 

 

 

 

 

x i

=

 

x - центрированные значения наблюдений;

 

 

 

1

 

N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Σ

 

 

|xi |

 

среднее линейное отклонение;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N i =

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x0.5

 

медиана, т.е. среднее значение в ряду наблюдений:

если x i

 

упорядочены по возрастанию, то она равна

x N + 1 при N нечетном и

(x N +

x N

 

 

 

) при N четном;

 

 

 

2

 

+

1

 

 

 

 

 

 

2

 

 

 

2

 

 

1

N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

c)q

 

 

 

 

 

 

 

 

m(q, c) =

 

 

(x i

моменты q-го

порядка, центральные при

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N i =

1

 

 

 

 

 

c = x , начальные при c = 0 .

 

 

 

 

 

 

 

 

m(1,0) =

x,

 

 

 

 

 

 

 

 

 

 

m(2, x) =

 

var(x)== s2 ,

дисперсия x ,

 

 

 

 

 

 

s

 

среднеквадратическое (стандартное) отклонение,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi

 

 

 

центрированные и нормированные значения наблюдений,

 

 

 

s

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

s

 

коэффициент вариации,

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m(3, x) = m3 , m(4, x)== m4 ,

 

 

 

 

 

 

 

r

=

 

m3

 

показатель асимметрии, если r 0 ,

то распределение величины

 

 

 

3

 

 

 

 

s3

 

 

 

 

 

 

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

симметрично, если r3 >

0 , то имеет место правая асимметрия, если r3 < 0 , - левая

асимметрия;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

r

=

 

m4

 

показатель эксцесса (куртозиса), если r 3, то распределение

 

 

 

4

 

 

 

 

s4

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

r4 > 3,

 

 

 

 

близко

к

 

нормальному,

если

то распределение высоковершинное, если

r4 < 3, - низковершинное.

 

 

 

 

 

Пусть наряду с величиной x имеется N наблюдений yi за величиной y.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 N

 

 

 

 

 

 

 

 

 

 

 

 

mxy

=

 

cov(x, y)==

 

(xix)(yi

y)ковариация x и y,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N i =

1

 

 

 

 

 

 

 

 

 

 

 

 

r

 

=

 

 

mxy коэффициент

корреляции

x

и y;

1

r

++

1;

если

xy

 

 

sx sy

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xy

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

rxy 0,

 

то

 

величины

 

x

и

y

линейно

независимы,

если

 

rxy 1,

то

они

положительно линейно зависимы, если

rxy 1,

- отрицательно

линейно

зависимы.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1.2. Эмпирические распределения случайной величины

 

 

Пусть все xi ,i =

 

1,..., N

попадают в полуинтервал (x 0.0 ,x 1.0 ],

который

делится

 

на

 

k

равных

полуинтервалов

длиной

;

x1.0

x 0.0==

k.

(предполагается, что x 0.0

“чуть” меньше или равно minx i , а x1.0

“чуть” больше

или равно max x i , так что некоторые из x i

попадают как в 1-й, так и в последний

из этих k полуинтервалов).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x1.0

 

x 0.0общий размах вариации.

 

 

 

 

 

 

 

 

k = 1++ 3.322ln Nоптимальное соотношение между k и N (формула

Стерджесса).

 

 

 

l -й полуинтервал l =

1,..., k , где

 

 

 

 

 

 

(x l

1 , x l ]

 

 

 

 

 

 

x 0 =

x 0.0 , x l==

x l 1++

, l== 1,..., k, x k== x1.0 .

 

 

 

 

 

wl

доля общего количества наблюдений N , попавших в l-й полуинтервал -

частоты, эмпирические оценки вероятностей попадания в данный полуинтервал;

 

k

wl

=

1 ;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

l = 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x l

=

x l

1++

 

 

 

,

l==

1,..., k

центры полуинтервалов;

 

 

 

 

 

2

 

 

 

 

 

 

Fl , l =

 

0,1, ..., kнакопленные

частоты

(эмпирические

вероятности, с

которыми значения величины в выборке не превышают xl ):

 

 

 

 

 

F0

=

0, Fl==

 

Fl

1++ wl , l== 1,..., k, Fk== 1 ;

 

 

 

 

 

 

f l =

wl

, l==

1,..., kэмпирические плотности распределения вероятности.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x =

 

 

 

x l wl

 

среднеарифметическое значение;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k l =

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

0.5

=

 

x

l 1

++

 

 

 

(0.5

F

)

медиана,

здесь l-й полуинтервал является

 

 

 

 

 

 

 

 

 

 

 

 

wl

 

 

 

l1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

медианным, т.е. Fl 1

<

0.5<< Fl ;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

k

 

 

c)q wl

 

m(q, c) =

 

 

(x l

моменты q-го порядка;

 

 

 

 

 

 

 

 

k l =

1

 

 

 

 

x

a

=

x

l

1

++

 

 

(a

F

)

a-й (a100-процентный) квантиль, т.е.

 

 

 

 

 

 

 

 

wl

l1

 

 

 

 

 

 

 

 

 

 

 

 

 

значение величины, которое не превышается в выборке с вероятностью a; здесь l

полуинтервал является квантильным, т.е. Fl 1 < a<< Fl

( x l

являются квантилями с

a = Fl );

1

 

 

 

 

 

 

 

l 1

 

 

 

 

xa =

 

{

x jwj++ [x l 1

++

 

(aFl1 )](a

Fl

1 )}среднее по той

a

2wl

 

j= 1

 

 

 

 

 

(нижней) части выборки, которая выделяется a-м квантилем (l-й полуинтервал также квантильный).

Среди квантилей особое значение имеют те, которые делят выборку на равные части (иногда именно эти величины называют квартилями):

x 0.5

медиана;

 

 

 

 

 

 

x 0.25 ,x 0.5 ,x 0.75

квартили;

 

 

 

x 0.1 ,x 0.2 ,..., x 0.9

децили;

 

 

 

x 0.01 , x 0.02 ,..., x 0.99

процентили.

 

 

x 0.9

x 0.1

децильный размах вариации (может быть также квартильным

или процентильным);

 

 

 

 

 

 

 

x 0.9x0.9

децильный коэффициент вариации (может быть медианным,

 

 

 

0.1x0.1

 

 

 

 

 

 

 

квартильным или процентильным).

 

 

 

 

o

 

 

 

f l

f l 1

 

 

 

x = x l 1++ ∆

 

 

 

 

 

мода, т.е. наиболее вероятное

(f l

f l 1 )++

(f l

f l++ 1 )

 

 

 

 

 

 

значение величины в выборке;

здесь l-й полуинтервал является модальным, fl на

нем достигает максимума; если этот максимум единственный, то распределение величины называется унимодальным; если максимума два - бимодальным; в общем случае - при нескольких максимумах - полимодальным.

Гистограмма - эмпирическая (интервальная) функция плотности распределения; имеет ступенчатую форму: на l-м полуинтервале (l=1,...,k) принимает

значение fl;

Полигон - функция, график которой образован отрезками, соединяющими точки (x 0 ,0), (x1 , f1 ), ..., (x k ,f k ), (x k ,0) .

Гистограмма и полигон могут строиться непосредственно по весам wl, если (как в данном случае) все полуинтервалы (x l 1 , x l ], l = 1, ..., k имеют одинаковую

длину.

Кумулята - эмпирическая (интервальная) функция распределения вероятности, график которой образован отрезками, соединяющими точки

(x l , Fl ), l = 0,1,..., k .

Огива - то же, что и кумулята, или (в традициях советской статистики) функция, обратная кумуляте.

1.3. Теоретические функции распределения случайной величины

x - случайная величина,

 

 

 

 

 

 

 

z - детерминированная переменная.

 

 

 

 

 

 

F(z) = P(xz)

функция распределения вероятности x;

 

 

 

 

 

f (z) =

dF

функция плотности распределения вероятности x;

 

 

 

 

dz

 

+∞f (z)dz = 1, F(z)==

z f (ξ )dξξ ,

 

 

 

 

 

 

−∞

 

 

 

 

 

 

 

 

 

 

−∞

 

 

 

 

 

 

 

x =

E(x)==

+∞zf (z)dz

математическое ожидание, среднее (теоретическое);

 

 

 

 

 

 

 

 

−∞

 

 

 

 

 

 

 

 

 

 

µ

(q, c) =

E[(x

c)q ]==

(zc)qf (z)dz

моменты

 

q-го

порядка

(теоретические);

 

 

 

 

 

 

 

−∞

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

µ

(2, x ) = σσ

дисперсия (теоретическая);

 

 

 

 

 

 

(3, x ) = 3 , (4, x )== 4 ;

 

 

 

 

 

 

ρ

3 =

 

 

3

 

показатель асимметрии (теоретический),

 

 

 

 

 

 

σ

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ρ

4 =

 

 

4

 

показатель эксцесса, куртозиса (теоретический).

 

 

 

 

σ

4

 

 

 

 

 

 

 

 

 

 

 

 

x a

 

 

 

 

 

 

 

Для квантиля x a :

 

o

 

 

 

 

 

f (z)dz = a ; для моды x : максимум

f (z) достигается

 

 

 

 

 

 

 

 

 

 

−∞

 

 

 

 

 

 

 

 

при z =

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x .

 

 

 

 

 

 

 

 

 

 

 

 

 

f (z) = f (z) и

Если распределение случайной величины симметрично, то

 

x a = x1

a .

В этом случае можно использовать понятие двустороннего квантиля

 

 

 

 

 

 

 

x a

 

 

 

 

 

 

 

 

 

 

x a , для которого

f (z)dz =

a , и значение которого совпадает с x 1+ a - значением

 

 

 

 

 

 

 

x a

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

обычного (одностороннего) квантиля.

 

 

 

 

 

 

Если

 

распределение

случайной величины

унимодально,

то

в случае

 

 

 

 

 

 

 

x x 0.5

o

при правой асимметрии x > x 0.5>>

o

 

симметричности

 

 

x ,

x ,

при левой

 

 

 

 

 

x 0.5<<

o

 

 

 

 

 

 

 

 

 

асимметрии x <

x .

 

 

 

 

 

 

 

 

 

1.4.Функции распределения, используемые в эконометрии

Всилу центральной предельной теоремы математической статистики, ошибки измерения и “остатки”, необъясняемые “хорошей” эконометрической моделью, имеют распределения близкие к нормальному. Поэтому все распределения,

используемые в классической эконометрии, основаны на нормальном.

Пусть ε - случайная величина, имеющая нормальное распределение с

нулевым мат.ожиданием и единичной дисперсией ( ε ~ N(0,1) ). Функция плотности

распределения ее прямо пропорциональна e

ε 2

 

(для наглядности в записи функции

2

плотности вместо z использован символ-имя самой случайной величины); 95- процентный двусторонний квантиль ε 0.95 равен 1.96, 99-процентный квантиль -

2.57.

Пусть теперь имеется k таких взаимно независимых величин ε l ~ N(0,1) .

Сумма их квадратов k ε 2l является случайной величиной, имеющей распределение

l = 1

χ 2 c k степенями свободы (обозначается χ 2k ). 95-процентный (односторонний)

квантиль χ 2k,0.95 при k=1 равен 3.84 (квадрат 1.96), при k=5 - 11.1, при k=20 -

31.4, при k=100 - 124.3.

Если две случайные величины ε и χ 2k независимы друг

от друга,

то

случайная величина

ε

имеет распределение t -Стъюдента с

k степенями

χ 2k

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

свободы ( t k ). Ее функция распределения прямо пропопорциональна (1 +

t2k

)

k +

1

;

2

 

в пределе при k

 

 

 

k

 

 

 

она становится нормально распределенной. 95-процентный

двусторонний квантиль

t k,0.95 при k=1 равен 12.7, при k=5 - 2.57, при k=20 -

2.09, при k=100 - 1.98 .

Если две случайные величины χ 2k1 и χ 2k 2 не зависят друг от друга, то

случайная величина χ 2k1 k1 имеет распределение F-Фишера с k1 и k2 степенями

χ 2k2 k2

свободы ( Fk1 , k2 ). 95-процентный (односторонний) квантиль F1, k 2 ,0.95 при k2=1

равен 161, при k2=5 - 6.61, при k2=20 - 4.35, при k2=100 - 3.94 (квадраты

соответствующих t k,0.95 ); квантиль F2, k 2 ,0.95 при k2=1 равен 200, при k2=5 -

5.79, при k2=20 - 3.49, при k2=100 - 3.09; квантиль Fk1 ,20,0.95 при k1=3 равен

3.10, при k1=4 - 2.87, при k1=5 - 2.71, при k1=6 - 2.60.

Теоретические вопросы и задания

1

1. x(k) = ( 1 N x k ) k - среднее степенное.

N i = 1 i

При k = 1 это - среднее гармоническое, при k = 1 - среднее арифметическое,

при k = 2 - средрее квадратическое. Доказать, что

- x(k) растет с ростом k, равно min(xi) при k → −и max(xi) при k

+;

-при k = 0 это - среднее геометрическое.

2(*). Для случая эмпирического распределения вывести формулы расчета среднего квантильного ( xa ), децильного коэффициента вариации и моды.

Соседние файлы в папке Методичка по регрессионному анализу. Ибрагимов Н.М., Карпенко В.В., Коломак Е.А., Суслов В.И.