Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Национальный исследовательский университет «Высшая школа экономики»

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Lektsii (1) / Lecture 24

.pdf

Скачиваний:

Добавлен:

02.06.2015

Размер:

189.76 Кб

Скачать

☆

ICEF, 2012/2013 STATISTICS 1 year LECTURES

Лекция 24

12.03.13

В общем случае есть зависимая переменная y и независимая переменная x. Для каждого значения x существует (условное) распределение величины y в под-популяции, соответствующей заданному значению x. Функция ϕ(x) = E( y | x) (среднее значение

зависимой переменной в под-популяции, характеризуемой значением x независимой переменной), называется функцией регрессии y на х. Требуется оценить функцию регрессии ϕ(x) по наблюдениям (xi , yi ), i =1,..., n .

Без дополнительных предположений относительно структуры функции ϕ(x) задача

является практически неразрешимой. В модели парной регрессии делается решающее упрощающее предположение: функция регрессии ϕ(x) есть линейная функция х:

ϕ(x) =α +β x , где α, β − некоторые неизвестные параметры. В этой ситуации задача оценивания функции регрессии ϕ(x) сводится к задаче оценивания параметров α, β по наблюдениям (xi , yi ), i =1,..., n − уже знакомая нам задача. Заметим, что для

рассматриваемого в начале примера предположение о линейности средних расходов на питание выглядит проблематичным. Конечно, расходы на питание в среднем растут с ростом дохода, но обязательно действует эффект насыщения. Более реалистичным выглядит предположение о том, что в этом случае функция регрессии ведет себя

примерно как x .

Сделаем одно техническое замечание. Согласно предположению,

E( y | x) =α +β x .

(5)

Нетрудно проверить (проверьте это!), что это условие равносильно следующим двум равенствам:

y =α +β x +ε, E(ε | x) = 0 ,

(6)

где ε трактуется как случайная ошибка.

Пусть теперь (xi , yi ), i =1,..., n − выборка из рассматриваемой генеральной совокупности.

Это, в частности, означает, что для каждого i выполняются равенства (5): yi =α +β xi +εi , E(εi | xi ) = 0 .

На начальном этапе будем считать значения независимых переменных xi неслучайными. Так бывает, когда мы имеем возможность выбирать значения xi . Например, можно

считать, что x − это количество удобрений, вносимых на участок, а y − урожайность. Итак, окончательно приходим к следующей модели:

yi =α +β xi +εi , E(εi ) = 0, i =1,..., n ,

(7)

которая и называется моделью парной регрессии (simple regression). Коэффициент β в (5) или (7) имеет следующий содержательный смысл:

число β есть среднее изменение y при увеличении независимой переменной y

на единицу.

ORDINARY LEAST SQUARES (МЕТОД НАИМЕНЬШИХ КВАДРАТОВ)

Рассмотрим отдельную, замкнутую в себе арифметическую задачу. Предположим, что на плоскости xOy даны n точек (xi , yi ), i =1,..., n («облако» наблюдений). Поставим задачу:

провести прямую линию, наилучшим образом приближающую это множество точек. Чтобы задача стала содержательной надо расшифровать термин «наилучшим». Как известно, уравнение прямой на плоскости имеет вид y = a +bx , где a, b − параметры.

Число a называется intercept, число b − slope. Возьмем произвольную прямую y = a +bx и для каждой точки (xi , yi ) вычислим её отклонение по вертикали от прямой:

ei = yi −(a +bxi ) . Величина ∑n	ei2 может трактоваться как показатель отклонения прямой
i=1

y = a +bx от всего «облака» наблюдений (xi , yi ), i =1,..., n . Ясно, что эта сумма квадратов

отклонений есть ∑n	ei2 = ∑n	( yi −(a +bxi ))2 и является функцией двух переменных (a, b)
i=1	i=1
(множество (xi , yi ), i =1,..., n фиксировано): ∑n			( yi −(a +bxi ))2 = f (a, b) . Наилучшая
		i=1

прямая − эта та, для которой величина f (a, b) минимальна. Иными словами, надо решить задачу

f (a, b) → min .	(1)
(a,b)

Пара (a, b) , которая является решением задачи (1) и задает оптимальную прямую, наилучшим образом приближающую «облако» наблюдений (xi , yi ), i =1,..., n .

Чтобы решить (1) надо, как и при минимизации функции одной переменной, взять производные функции f (a, b) отдельно по каждой переменной, считая другую

константой, и приравнять их нулю. (Эти производные называются частными производными по соответствующей переменной и обозначаются ∂∂af , ∂∂fb .)

Используя стандартные правила дифференцирования, получаем

∂f	= ∑n	(−2)( yi −(a +bxi )),	∂f	= ∑n	(−2)xi ( yi −(a +bxi )) .
∂a	i=1		∂b	i=1

Приравнивая производные нулю и делая очевидные преобразования, получаем систему уравнений относительно a и b (эти уравнения принято называть нормальными уравнениями, normal equations):

	∑n	( yi −(a +bxi )) = 0
	i=1	(2)
	n	(2)
∑xi ( yi −(a +bxi )) = 0
i=1

Система (2) может быть преобразована к виду (обязательно сделайте это!):

a +bx = y
		n		n	(3)

		+b ∑xi2	= ∑xi yi
a nx
		i=1	i=1
Решая (3) (обязательно сделайте это!), получаем:
	∑n	xi yi −n x y
b =	i=1			, a = y −bx .	(4)
	n
	∑xi2 −n x 2

i=1

Упражнение. Покажите, что оптимальная прямая проходит через «среднюю» точку

(x, y) .

Описанный выше способ построения прямой называется методом наименьших квадратов (Ordinary Least Squares,OLS).

Вернемся к модели парной регрессии.

Модель парной регрессии (продолжение)

Пусть есть модель парной регрессии

yi =α +β xi +εi , E(εi ) = 0, V (εi ) =σ2 , i =1,..., n .

Как оценить эти коэффициенты α, β ? Применим к наблюдениям (xi , yi ), i =1,..., n метод наименьших квадратов, т.е. возьмем в качестве оценок параметров α, β величины a, b из

(4):

βˆ = βˆOLS	=b =	∑n	xi yi −n x y	, αˆ =αˆOLS = a = y −bx .	(5)
		i=1
		n
		∑xi2 −n x 2

i=1

Из наших рассуждений совершенно не следует, что эти оценки являются «хорошими». Однако удивительным является тот факт, что это действительно так. Предположим, что модель (7) обладает еще одним свойством:

V (εi ) =σε2 ,

(6)

т.е. является постоянной. Это условие называется гомоскедастичностью (homoskedastisity). Заметим что условие гомоскедастичности является достаточно ограничительным. Содержательно оно означает, что разброс y один и тот же в каждой под-популяции, характеризуемой фиксированным значением x. Для расходов на питание это условие, скорее всего, не выполняется: для семей с низким уровнем дохода разброс расходов на питание меньше, чем для семей с высокими доходами.

Можно доказать, что при выполнении условий (6) и независимости наблюдений оценки метода наименьших квадратов являются

•Несмещенными

•Состоятельными

•Эффективными (в классе несмещенных и линейных по y оценок).оценок

Упражнение. Докажите несмещенность оценок (5).

Соседние файлы в папке Lektsii (1)

#
02.06.2015216.24 Кб13Lecture 2.pdf
#
02.06.2015214.52 Кб13Lecture 20.pdf
#
02.06.2015199.72 Кб14Lecture 21.pdf
#
02.06.2015205.75 Кб12Lecture 22.pdf
#
02.06.2015229.21 Кб13Lecture 23.pdf
#
02.06.2015189.76 Кб13Lecture 24.pdf
#
02.06.201528.9 Кб13Lecture 3.pdf
#
02.06.2015201.71 Кб13Lecture 4.pdf
#
02.06.201584.03 Кб13Lecture 5.pdf
#
02.06.201551.58 Кб12Lecture 6.pdf
#
02.06.201592.37 Кб13Lecture 7.pdf