Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Lektsii (1) / Lecture 24

.pdf
Скачиваний:
13
Добавлен:
02.06.2015
Размер:
189.76 Кб
Скачать

ICEF, 2012/2013 STATISTICS 1 year LECTURES

Лекция 24

12.03.13

В общем случае есть зависимая переменная y и независимая переменная x. Для каждого значения x существует (условное) распределение величины y в под-популяции, соответствующей заданному значению x. Функция ϕ(x) = E( y | x) (среднее значение

зависимой переменной в под-популяции, характеризуемой значением x независимой переменной), называется функцией регрессии y на х. Требуется оценить функцию регрессии ϕ(x) по наблюдениям (xi , yi ), i =1,..., n .

Без дополнительных предположений относительно структуры функции ϕ(x) задача

является практически неразрешимой. В модели парной регрессии делается решающее упрощающее предположение: функция регрессии ϕ(x) есть линейная функция х:

ϕ(x) =α +β x , где α, β некоторые неизвестные параметры. В этой ситуации задача оценивания функции регрессии ϕ(x) сводится к задаче оценивания параметров α, β по наблюдениям (xi , yi ), i =1,..., n уже знакомая нам задача. Заметим, что для

рассматриваемого в начале примера предположение о линейности средних расходов на питание выглядит проблематичным. Конечно, расходы на питание в среднем растут с ростом дохода, но обязательно действует эффект насыщения. Более реалистичным выглядит предположение о том, что в этом случае функция регрессии ведет себя

примерно как x .

Сделаем одно техническое замечание. Согласно предположению,

E( y | x) =α +β x .

(5)

Нетрудно проверить (проверьте это!), что это условие равносильно следующим двум равенствам:

y =α +β x +ε, E(ε | x) = 0 ,

(6)

где ε трактуется как случайная ошибка.

Пусть теперь (xi , yi ), i =1,..., n выборка из рассматриваемой генеральной совокупности.

Это, в частности, означает, что для каждого i выполняются равенства (5): yi =α +β xi +εi , E(εi | xi ) = 0 .

На начальном этапе будем считать значения независимых переменных xi неслучайными. Так бывает, когда мы имеем возможность выбирать значения xi . Например, можно

считать, что x это количество удобрений, вносимых на участок, а y урожайность. Итак, окончательно приходим к следующей модели:

yi =α +β xi +εi , E(εi ) = 0, i =1,..., n ,

(7)

которая и называется моделью парной регрессии (simple regression). Коэффициент β в (5) или (7) имеет следующий содержательный смысл:

число β есть среднее изменение y при увеличении независимой переменной y

на единицу.

ORDINARY LEAST SQUARES (МЕТОД НАИМЕНЬШИХ КВАДРАТОВ)

Рассмотрим отдельную, замкнутую в себе арифметическую задачу. Предположим, что на плоскости xOy даны n точек (xi , yi ), i =1,..., n («облако» наблюдений). Поставим задачу:

провести прямую линию, наилучшим образом приближающую это множество точек. Чтобы задача стала содержательной надо расшифровать термин «наилучшим». Как известно, уравнение прямой на плоскости имеет вид y = a +bx , где a, b параметры.

Число a называется intercept, число b slope. Возьмем произвольную прямую y = a +bx и для каждой точки (xi , yi ) вычислим её отклонение по вертикали от прямой:

ei = yi (a +bxi ) . Величина n

ei2 может трактоваться как показатель отклонения прямой

i=1

 

y = a +bx от всего «облака» наблюдений (xi , yi ), i =1,..., n . Ясно, что эта сумма квадратов

отклонений есть n

ei2 = n

( yi (a +bxi ))2 и является функцией двух переменных (a, b)

i=1

i=1

 

 

(множество (xi , yi ), i =1,..., n фиксировано): n

( yi (a +bxi ))2 = f (a, b) . Наилучшая

 

 

i=1

 

прямая эта та, для которой величина f (a, b) минимальна. Иными словами, надо решить задачу

f (a, b) min .

(1)

(a,b)

 

Пара (a, b) , которая является решением задачи (1) и задает оптимальную прямую, наилучшим образом приближающую «облако» наблюдений (xi , yi ), i =1,..., n .

Чтобы решить (1) надо, как и при минимизации функции одной переменной, взять производные функции f (a, b) отдельно по каждой переменной, считая другую

константой, и приравнять их нулю. (Эти производные называются частными производными по соответствующей переменной и обозначаются af , fb .)

Используя стандартные правила дифференцирования, получаем

f

= n

(2)( yi (a +bxi )),

f

= n

(2)xi ( yi (a +bxi )) .

a

i=1

 

b

i=1

 

Приравнивая производные нулю и делая очевидные преобразования, получаем систему уравнений относительно a и b (эти уравнения принято называть нормальными уравнениями, normal equations):

 

n

( yi (a +bxi )) = 0

 

i=1

(2)

 

n

xi ( yi (a +bxi )) = 0

i=1

 

Система (2) может быть преобразована к виду (обязательно сделайте это!):

a +bx = y

 

 

 

 

n

 

n

(3)

 

 

+b xi2

= xi yi

a nx

 

 

i=1

i=1

 

Решая (3) (обязательно сделайте это!), получаем:

 

 

n

xi yi n x y

 

b =

i=1

 

, a = y bx .

(4)

n

 

 

xi2 n x 2

 

i=1

Упражнение. Покажите, что оптимальная прямая проходит через «среднюю» точку

(x, y) .

Описанный выше способ построения прямой называется методом наименьших квадратов (Ordinary Least Squares,OLS).

Вернемся к модели парной регрессии.

Модель парной регрессии (продолжение)

Пусть есть модель парной регрессии

yi =α +β xi +εi , E(εi ) = 0, V (εi ) =σ2 , i =1,..., n .

Как оценить эти коэффициенты α, β ? Применим к наблюдениям (xi , yi ), i =1,..., n метод наименьших квадратов, т.е. возьмем в качестве оценок параметров α, β величины a, b из

(4):

βˆ = βˆOLS

=b =

n

xi yi n x y

, αˆ =αˆOLS = a = y bx .

(5)

i=1

n

 

 

xi2 n x 2

 

 

i=1

Из наших рассуждений совершенно не следует, что эти оценки являются «хорошими». Однако удивительным является тот факт, что это действительно так. Предположим, что модель (7) обладает еще одним свойством:

V (εi ) =σε2 ,

(6)

т.е. является постоянной. Это условие называется гомоскедастичностью (homoskedastisity). Заметим что условие гомоскедастичности является достаточно ограничительным. Содержательно оно означает, что разброс y один и тот же в каждой под-популяции, характеризуемой фиксированным значением x. Для расходов на питание это условие, скорее всего, не выполняется: для семей с низким уровнем дохода разброс расходов на питание меньше, чем для семей с высокими доходами.

Можно доказать, что при выполнении условий (6) и независимости наблюдений оценки метода наименьших квадратов являются

Несмещенными

Состоятельными

Эффективными (в классе несмещенных и линейных по y оценок).оценок

Упражнение. Докажите несмещенность оценок (5).

Соседние файлы в папке Lektsii (1)