- •1. Описательная статистика
- •1.1. Ряды наблюдений и их характеристики
- •1.2. Эмпирические распределения случайной величины
- •1.3. Теоретические функции распределения случайной величины
- •1.4. Функции распределения, используемые в эконометрии
- •Теоретические вопросы и задания
- •2. Случайные ошибки измерения
- •2.1. Первичные измерения
- •2.2. Производные измерения
- •Теоретические вопросы и задания
- •3. Алгебра линейной регрессии
- •3.1. Обозначения и определения
- •3.2. Простая регрессия
- •3.3. Ортогональная регрессия
- •3.4. Многообразие оценок регрессии
- •Теоретические вопросы и задания
- •4. Основная модель линейной регрессии
- •4.1. Различные формы уравнения регрессии
- •4.2. Основные гипотезы, свойства оценок
- •4.3. Независимые факторы
- •4.4. Прогнозирование
- •Теоретические вопросы и задания
- •5. Гетероскедастичность и автокорреляция ошибок
- •5.2. Гетероскедастичность ошибок
- •5.3. Автокорреляция ошибок
- •Теоретические вопросы и задания
- •6. Ошибки измерения факторов и фиктивные переменные
- •6.1. Ошибки измерения факторов
- •6.2. Фиктивные переменные
- •6.3. Дисперсионный анализ
- •Теоретические вопросы и задания
- •7. Оценка параметров систем уравнений
- •7.1. Невзаимозависимые системы
- •7.2. Взаимозависимые или одновременные уравнения. Проблема идентификации.
- •7.3. Оценка параметров отдельного уравнения
- •7.4. Оценка параметров всех (идентифицированных) уравнений
- •Теоретические вопросы и задания
Методическое пособие
для студентов II-III курсов экономического факультета НГУ
Эконометрия I: регрессионный анализ
Курс эконометрии I состоит из двух частей: регрессионный анализ и временные ряды. Данное пособие предназначено для 1-й части курса, которая изучается в IY семестре.
Пособие включает 7 разделов: 1. Описательная статистика.
2.Случайные ошибки измерения.
3.Алгебра линейной регрессии.
4.Основная модель линейной регрессии.
5.Гетероскедастичность и автокорреляция ошибок.
6.Ошибки измерения факторов и фиктивные переменные.
7.Оценка параметров систем уравнений.
Каждый раздел открывается кратким обзором теоретического материала, затем следуют теоретические вопросы и задания, разбираемые на лекциях и семинарских занятиях, вслед за ними приводится набор задач и упражнений, которые решаются на практических занятиях и самостоятельно. Завершается каждый раздел списком литературы.
Теоретическая часть пособия подготовлена по материалам лекционного курса, прочитанного в 1992-96 гг., практическая часть в значительной мере построена по результатам работы по программе TASIS-TEMPUS в 1995-96 гг. .
Авторы: В.И. Суслов, Н.М. Ибрагимов, Б.Б. Карпенко, Е.А. Коломак.
1. Описательная статистика
1.1. Ряды наблюдений и их характеристики
|
|
|
xi , i = |
1, ...,N−− |
ряд наблюдений за непрерывной случайной переменной x, |
|||||||||||||||
вариационный ряд, выборка. |
|
|
|
|
|
|||||||||||||||
|
|
|
x = |
|
1 N |
x i−− |
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
∑ |
среднеарифметическое значение; |
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
N i = 1 |
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
x i−− |
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
x i |
= |
|
x - центрированные значения наблюдений; |
||||||||||||||
|
|
|
1 |
|
N |
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
Σ |
|
|
|xi |− |
|
среднее линейное отклонение; |
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
N i = |
1 |
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
x0.5 |
|
− медиана, т.е. среднее значение в ряду наблюдений: |
|||||||||||||||
если x i |
|
упорядочены по возрастанию, то она равна |
x N + 1 при N нечетном и |
|||||||||||||||||
(x N + |
x N |
|
|
|
) при N четном; |
|
|
|
2 |
|
||||||||||
+ |
1 |
|
|
|
|
|
||||||||||||||
|
2 |
|
|
|
2 |
|
|
1 |
N |
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
c)q−− |
|
|
|
|
||||
|
|
|
|
m(q, c) = |
|
|
∑ |
(x i−− |
моменты q-го |
порядка, центральные при |
||||||||||
|
|
|
|
|
||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
N i = |
1 |
|
|
|
|
|
|
c = x , начальные при c = 0 . |
|
|
|
|
|
|||||||||||||||
|
|
|
m(1,0) = |
x, |
|
|
|
|
|
|
|
|||||||||
|
|
|
m(2, x) = |
|
var(x)== s2 , |
дисперсия x , |
|
|
|
|||||||||||
|
|
|
s− |
|
среднеквадратическое (стандартное) отклонение, |
|||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
xi |
|
− |
|
|
центрированные и нормированные значения наблюдений, |
||||||||||||
|
|
|
s |
|
|
|
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
s |
|
− |
коэффициент вариации, |
|
|
|
|
||||||||||
|
|
|
x |
|
|
|
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
m(3, x) = m3 , m(4, x)== m4 , |
|
|
|
|
|||||||||||||
|
|
|
r |
= |
|
m3−− |
|
показатель асимметрии, если r ≈ 0 , |
то распределение величины |
|||||||||||
|
|
|
3 |
|
|
|
|
s3 |
|
|
|
|
|
|
3 |
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
симметрично, если r3 > |
0 , то имеет место правая асимметрия, если r3 < 0 , - левая |
|||||||||||||||||||
асимметрия; |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
r |
= |
|
m4−− |
|
показатель эксцесса (куртозиса), если r ≈ 3, то распределение |
||||||||||||
|
|
|
4 |
|
|
|
|
s4 |
|
|
|
|
|
|
|
4 |
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
r4 > 3, |
|
|
|
|
||
близко |
к |
|
нормальному, |
если |
то распределение высоковершинное, если |
|||||||||||||||
r4 < 3, - низковершинное. |
|
|
|
|
|
Пусть наряду с величиной x имеется N наблюдений yi за величиной y.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 N |
|
|
|
|
|
|
|
|
|
|
|
|
||
mxy |
= |
|
cov(x, y)== |
|
∑ |
(xi−− x)(yi |
−− |
y)−− ковариация x и y, |
|
|
||||||||||||||||||
|
|
|
||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
N i = |
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
r |
|
= |
|
|
mxy −− коэффициент |
корреляции |
x |
и y; |
− |
1≤≤ |
r |
≤≤ ++ |
1; |
если |
||||||||||||||
xy |
|
|
sx sy |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
xy |
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
rxy ≈ 0, |
|
то |
|
величины |
|
x |
и |
y |
линейно |
независимы, |
если |
|
rxy ≈ 1, |
то |
они |
|||||||||||||
положительно линейно зависимы, если |
rxy ≈ −− 1, |
- отрицательно |
линейно |
|||||||||||||||||||||||||
зависимы. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1.2. Эмпирические распределения случайной величины |
|
|
||||||||||||||||||||||||||
Пусть все xi ,i = |
|
1,..., N |
попадают в полуинтервал (x 0.0 ,x 1.0 ], |
который |
||||||||||||||||||||||||
делится |
|
на |
|
k |
равных |
полуинтервалов |
длиной |
∆ ; |
x1.0 |
− x 0.0== |
k∆∆ . |
|||||||||||||||||
(предполагается, что x 0.0 |
“чуть” меньше или равно minx i , а x1.0 |
“чуть” больше |
||||||||||||||||||||||||||
или равно max x i , так что некоторые из x i |
попадают как в 1-й, так и в последний |
|||||||||||||||||||||||||||
из этих k полуинтервалов). |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
x1.0 |
− |
|
x 0.0−− общий размах вариации. |
|
|
|
|
|
|
|
|
|||||||||||||||||
k = 1++ 3.322ln N−− оптимальное соотношение между k и N (формула |
||||||||||||||||||||||||||||
Стерджесса). |
|
|
|
l -й полуинтервал l = |
1,..., k , где |
|
|
|
|
|
|
|||||||||||||||||
(x l − |
1 , x l ] − |
|
|
|
|
|
|
|||||||||||||||||||||
x 0 = |
x 0.0 , x l== |
x l − 1++ |
∆ |
, l== 1,..., k, x k== x1.0 . |
|
|
|
|
|
|||||||||||||||||||
wl |
− |
доля общего количества наблюдений N , попавших в l-й полуинтервал - |
||||||||||||||||||||||||||
частоты, эмпирические оценки вероятностей попадания в данный полуинтервал; |
|
|||||||||||||||||||||||||||
∑k |
wl |
= |
1 ; |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
l = 1 |
|
|
|
|
|
|
∆ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
x l |
= |
x l − |
1++ |
|
|
|
, |
l== |
1,..., k−− |
центры полуинтервалов; |
|
|
|
|
|
|||||||||||||
2 |
|
|
|
|
|
|
||||||||||||||||||||||
Fl , l = |
|
0,1, ..., k−− накопленные |
частоты |
(эмпирические |
вероятности, с |
|||||||||||||||||||||||
которыми значения величины в выборке не превышают xl ): |
|
|
|
|
|
|||||||||||||||||||||||
F0 |
= |
0, Fl== |
|
Fl − |
1++ wl , l== 1,..., k, Fk== 1 ; |
|
|
|
|
|
|
|||||||||||||||||
f l = |
wl |
, l== |
1,..., k−− эмпирические плотности распределения вероятности. |
|||||||||||||||||||||||||
|
|
|
∆ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
1 |
|
k |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
x = |
|
|
|
∑ |
x l wl−− |
|
среднеарифметическое значение; |
|
|
|
|
|
||||||||||||||||
|
|
|
|
|
|
|
|
|||||||||||||||||||||
|
|
|
k l = |
1 |
|
|
|
|
∆ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
x |
0.5 |
= |
|
x |
l − 1 |
++ |
|
|
|
(0.5−− |
F |
)−− |
медиана, |
здесь l-й полуинтервал является |
||||||||||||||
|
|
|
|
|
||||||||||||||||||||||||
|
|
|
|
|
|
|
wl |
|
|
|
l−− 1 |
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
медианным, т.е. Fl − 1 |
< |
0.5<< Fl ; |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
k |
|
|
c)q wl−− |
|
|
m(q, c) = |
|
|
∑ |
(x l−− |
моменты q-го порядка; |
||||||||
|
|
||||||||||||
|
|
|
|
|
|
k l = |
1 |
|
|
|
|
||
x |
a |
= |
x |
l − |
1 |
++ |
|
∆ |
|
(a−− |
F |
)−− |
a-й (a100-процентный) квантиль, т.е. |
|
|
|
|||||||||||
|
|
|
|
|
wl |
l−− 1 |
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
значение величины, которое не превышается в выборке с вероятностью a; здесь l-й
полуинтервал является квантильным, т.е. Fl − 1 < a<< Fl |
( x l |
являются квантилями с |
|||||||
a = Fl ); |
1 |
|
|
|
∆ |
|
|
|
|
|
l − 1 |
|
|
|
|
||||
xa = |
|
{ ∑ |
x jwj++ [x l − 1 |
++ |
|
(a−− Fl−− 1 )](a−− |
Fl−− |
1 )}−− среднее по той |
|
a |
2wl |
||||||||
|
j= 1 |
|
|
|
|
|
(нижней) части выборки, которая выделяется a-м квантилем (l-й полуинтервал также квантильный).
Среди квантилей особое значение имеют те, которые делят выборку на равные части (иногда именно эти величины называют квартилями):
x 0.5 − |
медиана; |
|
|
|
|
|
|
||||
x 0.25 ,x 0.5 ,x 0.75 − |
квартили; |
|
|
|
|||||||
x 0.1 ,x 0.2 ,..., x 0.9 − |
децили; |
|
|
|
|||||||
x 0.01 , x 0.02 ,..., x 0.99 − |
процентили. |
|
|
||||||||
x 0.9 − |
x 0.1−− |
децильный размах вариации (может быть также квартильным |
|||||||||
или процентильным); |
|
|
|
|
|
|
|||||
|
x − 0.9x0.9 |
− |
децильный коэффициент вариации (может быть медианным, |
||||||||
|
|
||||||||||
|
0.1x0.1 |
|
|
|
|
|
|
|
|||
квартильным или процентильным). |
|
|
|
||||||||
|
o |
|
|
|
f l |
− |
f l − 1 |
|
|
|
|
x = x l − 1++ ∆ |
|
|
|
|
|
− |
мода, т.е. наиболее вероятное |
||||
(f l − |
f l − 1 )++ |
(f l−− |
f l++ 1 ) |
||||||||
|
|
|
|
|
|
||||||
значение величины в выборке; |
здесь l-й полуинтервал является модальным, fl на |
нем достигает максимума; если этот максимум единственный, то распределение величины называется унимодальным; если максимума два - бимодальным; в общем случае - при нескольких максимумах - полимодальным.
Гистограмма - эмпирическая (интервальная) функция плотности распределения; имеет ступенчатую форму: на l-м полуинтервале (l=1,...,k) принимает
значение fl;
Полигон - функция, график которой образован отрезками, соединяющими точки (x 0 ,0), (x1 , f1 ), ..., (x k ,f k ), (x k ,0) .
Гистограмма и полигон могут строиться непосредственно по весам wl, если (как в данном случае) все полуинтервалы (x l − 1 , x l ], l = 1, ..., k имеют одинаковую
длину.
Кумулята - эмпирическая (интервальная) функция распределения вероятности, график которой образован отрезками, соединяющими точки
(x l , Fl ), l = 0,1,..., k .
Огива - то же, что и кумулята, или (в традициях советской статистики) функция, обратная кумуляте.
1.3. Теоретические функции распределения случайной величины
x - случайная величина, |
|
|
|
|
|
|
|
|||||||||||
z - детерминированная переменная. |
|
|
|
|
|
|
||||||||||||
F(z) = P(x≤≤ z)−− |
функция распределения вероятности x; |
|
|
|
|
|
||||||||||||
f (z) = |
dF |
функция плотности распределения вероятности x; |
|
|||||||||||||||
|
|
−− |
|
|||||||||||||||
dz |
|
|||||||||||||||||
+∞∫ f (z)dz = 1, F(z)== |
∫z f (ξ )dξξ , |
|
|
|
|
|
|
|||||||||||
−∞ |
|
|
|
|
|
|
|
|
|
|
−∞ |
|
|
|
|
|
|
|
x = |
E(x)== |
+∞∫ zf (z)dz−− |
математическое ожидание, среднее (теоретическое); |
|||||||||||||||
|
|
|
|
|
|
|
|
−∞ |
|
|
|
|
|
|
|
|
|
|
µ |
(q, c) = |
E[(x−− |
c)q ]== |
∞∫ (z−− c)qf (z)dz−− |
моменты |
|
q-го |
порядка |
||||||||||
(теоретические); |
|
|
|
|
|
|
|
−∞ |
|
|
|
|
|
|
||||
|
|
|
2−− |
|
|
|
|
|
|
|
|
|
|
|||||
µ |
(2, x ) = σσ |
дисперсия (теоретическая); |
|
|
|
|
|
|
||||||||||
(3, x ) = 3 , (4, x )== 4 ; |
|
|
|
|
|
|
||||||||||||
ρ |
3 = |
|
|
3 |
|
−− |
показатель асимметрии (теоретический), |
|
|
|
|
|
||||||
|
σ |
3 |
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
ρ |
4 = |
|
|
4 |
|
−− |
показатель эксцесса, куртозиса (теоретический). |
|
|
|
||||||||
|
σ |
4 |
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
|
x a |
|
|
|
|
|
|
|
|||
Для квантиля x a : |
|
o |
|
|
|
|
|
|||||||||||
∫ f (z)dz = a ; для моды x : максимум |
f (z) достигается |
|||||||||||||||||
|
|
|
|
|
|
|
|
|
|
−∞ |
|
|
|
|
|
|
|
|
при z = |
o |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
x . |
|
|
|
|
|
|
|
|
|
|
|
|
|
f (z) = f (−− z) и |
||||
Если распределение случайной величины симметрично, то |
|
|||||||||||||||||
x a = −− x1− |
a . |
В этом случае можно использовать понятие двустороннего квантиля |
||||||||||||||||
|
|
|
|
|
|
|
x a |
|
|
|
|
|
|
|
|
|
|
|
x a , для которого |
∫ f (z)dz = |
a , и значение которого совпадает с x 1+ a - значением |
||||||||||||||||
|
|
|
|
|
|
|
− |
x a |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
||
обычного (одностороннего) квантиля. |
|
|
|
|
|
|
||||||||||||
Если |
|
распределение |
случайной величины |
унимодально, |
то |
в случае |
||||||||||||
|
|
|
|
|
|
|
x ≈ x 0.5≈≈ |
o |
при правой асимметрии x > x 0.5>> |
o |
|
|||||||
симметричности |
|
|
x , |
x , |
при левой |
|||||||||||||
|
|
|
|
|
x 0.5<< |
o |
|
|
|
|
|
|
|
|
|
|||
асимметрии x < |
x . |
|
|
|
|
|
|
|
|
|