Lektsii (1) / Lecture 24
.pdfICEF, 2012/2013 STATISTICS 1 year LECTURES
Лекция 24 |
12.03.13 |
В общем случае есть зависимая переменная y и независимая переменная x. Для каждого значения x существует (условное) распределение величины y в под-популяции, соответствующей заданному значению x. Функция ϕ(x) = E( y | x) (среднее значение
зависимой переменной в под-популяции, характеризуемой значением x независимой переменной), называется функцией регрессии y на х. Требуется оценить функцию регрессии ϕ(x) по наблюдениям (xi , yi ), i =1,..., n .
Без дополнительных предположений относительно структуры функции ϕ(x) задача
является практически неразрешимой. В модели парной регрессии делается решающее упрощающее предположение: функция регрессии ϕ(x) есть линейная функция х:
ϕ(x) =α +β x , где α, β − некоторые неизвестные параметры. В этой ситуации задача оценивания функции регрессии ϕ(x) сводится к задаче оценивания параметров α, β по наблюдениям (xi , yi ), i =1,..., n − уже знакомая нам задача. Заметим, что для
рассматриваемого в начале примера предположение о линейности средних расходов на питание выглядит проблематичным. Конечно, расходы на питание в среднем растут с ростом дохода, но обязательно действует эффект насыщения. Более реалистичным выглядит предположение о том, что в этом случае функция регрессии ведет себя
примерно как x .
Сделаем одно техническое замечание. Согласно предположению,
E( y | x) =α +β x . |
(5) |
Нетрудно проверить (проверьте это!), что это условие равносильно следующим двум равенствам:
y =α +β x +ε, E(ε | x) = 0 , |
(6) |
где ε трактуется как случайная ошибка.
Пусть теперь (xi , yi ), i =1,..., n − выборка из рассматриваемой генеральной совокупности.
Это, в частности, означает, что для каждого i выполняются равенства (5): yi =α +β xi +εi , E(εi | xi ) = 0 .
На начальном этапе будем считать значения независимых переменных xi неслучайными. Так бывает, когда мы имеем возможность выбирать значения xi . Например, можно
считать, что x − это количество удобрений, вносимых на участок, а y − урожайность. Итак, окончательно приходим к следующей модели:
yi =α +β xi +εi , E(εi ) = 0, i =1,..., n , |
(7) |
которая и называется моделью парной регрессии (simple regression). Коэффициент β в (5) или (7) имеет следующий содержательный смысл:
число β есть среднее изменение y при увеличении независимой переменной y
на единицу.
ORDINARY LEAST SQUARES (МЕТОД НАИМЕНЬШИХ КВАДРАТОВ)
Рассмотрим отдельную, замкнутую в себе арифметическую задачу. Предположим, что на плоскости xOy даны n точек (xi , yi ), i =1,..., n («облако» наблюдений). Поставим задачу:
провести прямую линию, наилучшим образом приближающую это множество точек. Чтобы задача стала содержательной надо расшифровать термин «наилучшим». Как известно, уравнение прямой на плоскости имеет вид y = a +bx , где a, b − параметры.
Число a называется intercept, число b − slope. Возьмем произвольную прямую y = a +bx и для каждой точки (xi , yi ) вычислим её отклонение по вертикали от прямой:
ei = yi −(a +bxi ) . Величина ∑n |
ei2 может трактоваться как показатель отклонения прямой |
i=1 |
|
y = a +bx от всего «облака» наблюдений (xi , yi ), i =1,..., n . Ясно, что эта сумма квадратов
отклонений есть ∑n |
ei2 = ∑n |
( yi −(a +bxi ))2 и является функцией двух переменных (a, b) |
|
i=1 |
i=1 |
|
|
(множество (xi , yi ), i =1,..., n фиксировано): ∑n |
( yi −(a +bxi ))2 = f (a, b) . Наилучшая |
||
|
|
i=1 |
|
прямая − эта та, для которой величина f (a, b) минимальна. Иными словами, надо решить задачу
f (a, b) → min . |
(1) |
(a,b) |
|
Пара (a, b) , которая является решением задачи (1) и задает оптимальную прямую, наилучшим образом приближающую «облако» наблюдений (xi , yi ), i =1,..., n .
Чтобы решить (1) надо, как и при минимизации функции одной переменной, взять производные функции f (a, b) отдельно по каждой переменной, считая другую
константой, и приравнять их нулю. (Эти производные называются частными производными по соответствующей переменной и обозначаются ∂∂af , ∂∂fb .)
Используя стандартные правила дифференцирования, получаем
∂f |
= ∑n |
(−2)( yi −(a +bxi )), |
∂f |
= ∑n |
(−2)xi ( yi −(a +bxi )) . |
∂a |
i=1 |
|
∂b |
i=1 |
|
Приравнивая производные нулю и делая очевидные преобразования, получаем систему уравнений относительно a и b (эти уравнения принято называть нормальными уравнениями, normal equations):
|
∑n |
( yi −(a +bxi )) = 0 |
|
i=1 |
(2) |
|
n |
|
∑xi ( yi −(a +bxi )) = 0 |
||
i=1 |
|
Система (2) может быть преобразована к виду (обязательно сделайте это!):
a +bx = y |
|
|
|
|||
|
n |
|
n |
(3) |
||
|
|
|||||
+b ∑xi2 |
= ∑xi yi |
|||||
a nx |
|
|||||
|
i=1 |
i=1 |
|
|||
Решая (3) (обязательно сделайте это!), получаем: |
|
|||||
|
∑n |
xi yi −n x y |
|
|||
b = |
i=1 |
|
, a = y −bx . |
(4) |
||
n |
|
|||||
|
∑xi2 −n x 2 |
|
i=1
Упражнение. Покажите, что оптимальная прямая проходит через «среднюю» точку
(x, y) .
Описанный выше способ построения прямой называется методом наименьших квадратов (Ordinary Least Squares,OLS).
Вернемся к модели парной регрессии.
Модель парной регрессии (продолжение)
Пусть есть модель парной регрессии
yi =α +β xi +εi , E(εi ) = 0, V (εi ) =σ2 , i =1,..., n .
Как оценить эти коэффициенты α, β ? Применим к наблюдениям (xi , yi ), i =1,..., n метод наименьших квадратов, т.е. возьмем в качестве оценок параметров α, β величины a, b из
(4):
βˆ = βˆOLS |
=b = |
∑n |
xi yi −n x y |
, αˆ =αˆOLS = a = y −bx . |
(5) |
i=1 |
|||||
n |
|||||
|
|
∑xi2 −n x 2 |
|
|
i=1
Из наших рассуждений совершенно не следует, что эти оценки являются «хорошими». Однако удивительным является тот факт, что это действительно так. Предположим, что модель (7) обладает еще одним свойством:
V (εi ) =σε2 , |
(6) |
т.е. является постоянной. Это условие называется гомоскедастичностью (homoskedastisity). Заметим что условие гомоскедастичности является достаточно ограничительным. Содержательно оно означает, что разброс y один и тот же в каждой под-популяции, характеризуемой фиксированным значением x. Для расходов на питание это условие, скорее всего, не выполняется: для семей с низким уровнем дохода разброс расходов на питание меньше, чем для семей с высокими доходами.
Можно доказать, что при выполнении условий (6) и независимости наблюдений оценки метода наименьших квадратов являются
•Несмещенными
•Состоятельными
•Эффективными (в классе несмещенных и линейных по y оценок).оценок
Упражнение. Докажите несмещенность оценок (5).