Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
kontrol_po_ekonometr.doc
Скачиваний:
145
Добавлен:
19.09.2019
Размер:
17.55 Mб
Скачать

2.5. Качество оценки: коэффициент r2.

Цель регрессионного анализа состоит в объяснении поведения зависимой переменной у. В любой данной выборке у оказывается сравнительно низким в одних наблюдениях и сравнительно высоким — в других. Мы хотим знать, почему это так. Разброс значений у в любой выборке можно суммарно описать с помощью выборочной дисперсии Var (у).

В парном регрессионном анализе мы пытаемся объяснить поведение у путем определения регрессионной зависимости у от выбранной независимой переменной х. После построения уравнения регрессии мы можем разбить значение уi в каждом наблюдении на две составляющих — и еi.

yi = + ei (2.18)

Величина расчетное значение у в наблюдении i — это то значение, которое имел бы у при условии, что уравнение регрессии было правильным, и отсутствии случайного фактора. Это, иными словами, величина у, спрогнозированная по значению x в данном наблюдении. Остаток ei есть расхождение между фактическим и спрогнозированным значениями величины y. Это та часть у, которую мы не можем объяснить с помощью уравнения регрессии. Используя уравнение (2.18), разложим дисперсию у:

Var (y) = Var ( + e ) = Var ( ) + Var(e) + 2Cov ( ,e) (2.19)

Далее, Cov ( ,е) должна быть равна нулю. Следовательно, мы получаем:

Var (y) = Var ( ) + Var (e) (2.20)

Это означает, что мы можем разложить Var (у) на две части: Var ( ) часть, которая «объясняется» уравнением регрессии в вышеописанном смысле, и Var (е) — «необъясненную» часть.

Согласно (2.20), Var ( )/ Var (у) — это часть дисперсии y, объясненная уравнением регрессии. Это отношение известно как коэффициент детерминации, и его обычно обозначают R 2.

(2.21)

что равносильно

(2.22)

Слова «объясненный» и «необъясненный» взяты в кавычки, так как объяснение, в сущности, может быть мнимым. В действительности у может зависеть от какой-то другой переменной z, и х может действовать как величина, замещающая z . Поэтому вместо слова «объясненный» здесь лучше употреблять выражение «представляющийся объясненным».

Максимальное значение коэффициента детерминации равно единице. Это происходит в том случае, когда линия регрессии точно соответствует всем наблюдениям, так что = уi для всех i и все остатки равны нулю. Тогда Var ( ) = Var (у), Var (е) = О и R2 = 1.

Если в выборке отсутствует видимая связь между у и х, то коэффициент R2 будет близок к нулю.

При прочих равных условиях желательно, чтобы коэффициент R2 был как можно больше. В частности, мы заинтересованы в таком выборе коэффициентов а и b, чтобы максимизировать R2. Не противоречит ли это нашему критерию, в соответствии с которым а и b должны быть выбраны таким образом, чтобы минимизировать сумму квадратов остатков? Нет, легко показать, что эти критерии эквивалентны, если (2.22) используется как определение коэффициента R2. Отметим сначала, что

ei = yi - = yi - a -bxi (2.23)

откуда, беря среднее значение еi по выборке и используя уравнение (2.10), получим:

(2.24)

Следовательно,

(2.25) Отсюда следует, что принцип минимизации суммы квадратов остатков эквивалентен минимизации дисперсии остатков при условии выполнения (2.10). Однако если мы минимизируем Var(e), то при этом в соответствии с (2.22) автоматически максимизируется коэффициент R.2.

Альтернативное представление коэффициента R2

На интуитивном уровне представляется очевидным, что чем больше соответствие, обеспечиваемое уравнением регрессии, тем больше должен быть коэффициент корреляции для фактических и прогнозных значений y, и наоборот. Покажем, что R2 фактически равен квадрату такого коэффициента корреляции между у и , который мы обозначим (заметим, что Cov (е, у) = 0.

(2.26)

Вопросы для повторения

1. Раскройте понятие уравнения регрессии.

2. Что такое «остатки» в регрессионной модели, и каковы причины их существования?

3. Поясните сущность метода наименьших квадратов.

4. Как выглядит система нормальных уравнений в случае парной линейной регрессии?

5. Какие способы определения коэффициента регрессии Вы знаете?

6. Какова интерпретация коэффициента регрессии?

7. Есть ли смысловая интерпретация у свободного члена уравнения парной линейной регрессии?

8. Что показывает коэффициент детерминации?

9. Напишите смысловую формулу коэффициента детерминации.

10. Как связан коэффициент детерминации с линейным коэффициентом корреляции?

Резюме по модульной единице 2.

Простейшей математической моделью корреляционной связи является линейная связь между двумя признаками – парная линейная регрессия. Среди множества факторов, определяющих вариацию результативного признака, выделяют основной (главный) фактор. Линейная форма связи имеет наиболее широкое применение потому, что многие зависимости, нелинейные на большом протяжении значений фактора, близки к линейным на реально наблюдаемом интервале. Кроме того, парная корреляция рассматривается как начальный этап в изучении сложных многофакторных связей.