Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Уральский Федеральный университет им. Б.Н. Ельцина «УПИ»

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

konspekt_matematicheskoe_modelirovanie.doc

Скачиваний:

Добавлен:

22.02.2015

Размер:

3.61 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 56 / 106 7 8 9 10 > Следующая >>>

Обобщенный мнк

Необходимо найти и по заданным z и .

Сведем ОЛММР к КЛММР.

Известно, что всякая симметричная невырожденная матрица A допускает представление

, где C – некоторая невырожденная матрица. Разложим

Умножим (1) слева на C^-1: . Переобозначим

Минимизируя _, (1*)

как и ранее, имеем: и, возвращаясь к исходным наблюдениям:

. (1**)

Убедимся, что как и в КЛММР:

, поэтому ковариационная матрица оценок коэффициентов регрессии по ОМНК:

Несмещённая оценка коэффициента:

Коэффициент детерминации:

, теперь не обязательно , имеет вспомогательное, эвристическое значение.

Замечание: подставляя в исходный критерий (1*)

, получим критерий

(2)

через исходные данные ОЛММР. Решение знаем: (1**).

Замечание: ситуации, когда известна, крайне редки ( неизвестных параметров).

В практически реализуемом ОМНК приходится вводить априорные ограничения на структуру матрицы (см. предположения):

1) Гетероскедастичные ошибки.

Подставляя в (2), получим

. (3)

Поэтому ОМНК в этом случае называют взвешенным МНК (– веса).

Из (3) следует, что на выработку более сильное влияние оказывают данные с меньшей дисперсией ошибок.

Замечание: проверка гипотезы о гомо-/гетероскедастичности ошибок:

(гомоскедастичность);

(гетероскедастичность).

Разбить выборку {} на G кластеров (g = 1, ..., G) (кластер-анализ).

В каждом кластере найти выборочные дисперсии:

где .

Затем для проверки гипотезы применяется критерий Бартлетта равенства G дисперсий.

Если отвергается, то используем ОМНК:

, где g – номер кластера, к которому принадлежит n.

2) автокоррелированные ошибки.

Это могут быть, например, ошибки, связанные моделью авторегрессии 1-го порядка (AR(1)):

– белый шум:

– символ Кронекера.

(автокорреляции затухают с увеличением лага),

Замечание: проверка гипотезы о наличии/отсутствии автокорреляции ошибок (критерий Дербина – Уотсона):

Статистика критерия: , –остатки обычного МНК.

Ясно, что при

, поэтому, если:

1) ;

2) .

Таким образом,

? ?

2 .

Если автокорреляция существует, а неизвестен, то можно:

а) грубо считать, что (и подставить это в );

б) использовать процедуру Кохрейна – Оркатта:

– найти ;

– ;

– оценка находится как МНК–оценка коэффициента регрессии в модели ;

– ;

– переход к п. 2, где заменить на .

Продолжаем цикл до тех пор, пока не стабилизируется.

Недостаток алгоритма состоит в том, что есть опасность уйти в локальный минимум .

Прогноз в ОЛММР

Оценка нового yN(T) по известным факторам производится по формулам:

1. Гетероскедастичные ошибки:

2. Автокоррелированные ошибки:

Дихотомические результирующие показатели. Логит- и пробит-модели

Нередко зависимая переменная – переменная отклика– бинарна по своей природе, т. е. может принимать только два значения. Например, пациент может выздороветь, а может и нет, кандидат на должность может пройти, а может провалить тест при приеме на работу, человек может быть безработным, а может и иметь работу и т. п. Во всех этих случаях нас может заинтересовать поиск зависимости между одной или несколькими “непрерывными” переменными (например, в последнем случае x₁ – возраст, x₂ – доход за последний год, x₃ – стаж работы и т. п.) и одной зависящей от них бинарной переменной.

Конечно, можно использовать стандартную множественную регрессию и вычислить стандартные коэффициенты регрессии. Например, можно задать переменную y со значениями 1’ и 0’, где 1 означает, что соответствующий человек безработен, а 0 – что он занят. Однако здесь возникает проблема: множественная регрессия «не знает», что переменная отклика бинарна по своей природе. Поэтому это неизбежно приведет к модели с предсказываемыми значениями, большими 1 и меньшими 0. Но такие значения вообще не допустимы для первоначальной задачи, таким образом, множественная регрессия просто игнорирует ограничения на диапазон значений для y.

Задача регрессии может быть сформулирована иначе: вместо описания бинарной переменной мы описываем непрерывную переменную со значениями на отрезке [0, 1], которую интерпретируем как вероятность . (4)

Здесь – вектор регрессоров, – вектор коэффициентов регрессии.

– логистическая функция.

Легко заметить, что вне зависимости от коэффициентов регрессии и значений значения p всегда будут принадлежать отрезку [0, 1]:

Таким образом, модель логит-регрессии имеет вид

, (5)

где En – случайная ошибка в n-м измерении. Очевидно,

En гетероскедастичны, так как их дисперсия зависит от .

Если вместо использовать – функцию нормального стандартного распределения, то это будет пробит-модель.

Модель (5) нелинейна по параметрам , и перед применением МНК ее следует линеаризовать. Перенесем ошибку налево и применим к обеим частям преобразование, обратное к . Ограничиваясь первыми членами разложения левой части по формуле Тейлора, получим:

где , ошибки гетероскедастичны.

Чтобы при практическом применении МНК последнее выражение имело смысл, необходимо рассматривать группированные или повторяющиеся данные, заменяя средним значением, не равным 0 и 1.

Из-за вышеуказанных трудностей оценку вектора коэффициентов регрессии лучше найти методом максимального правдоподобия. Если вероятность получить 1 есть (4), то вероятность получить 0 есть 1- p и вероятность получить цепочку 1, 0, 0, … есть произведение вероятностей p(1-p)(1-p)….

Функция правдоподобия:

В результате определяется такой, что вероятность получить при имеющихся факторах имеющиеся отклики будет максимальной. Для проверки качества моделирования (значимости эффектов факторов) проверяется гипотеза

Статистика критерия – логарифм квадрата отношения правдоподобий для моделей H₁и H₀ – имеет при H₀ приближенно распределение хи-квадрат с K степенями свободы, поэтому уровень значимости:

Маржинальный эффект фактора

Маржинальный эффект фактора x_i показывает изменение вероятности

{Y = 1} при изменении фактора x_i на единицу.

Можно показать, что он имеет вид:

Пример (продолжение): на сколько процентов увеличится вероятность успеха в задании при увеличении опыта работы (от его среднего значения = 16.88 мес.) на 1 месяц?

Маржинальный эффект = 0.4*0.6*0.161 = 0.038, то есть вероятность успеха повышается на 0.038, или примерно на 10 %.

Стохастические объясняющие переменные

Данная модель имеет вид

, (6)

где теперь – случайные величины;

Z – случайная матрица плана.

Рассмотрим три случая.

1. Случайные ошибки не зависят от .

В этом случае все результаты обычного регрессионного анализа сохраняются. В частности, МНК-оценка остается несмещенной.

Доказательство:

2. Случайные ошибки зависят от .

, и оценка – смещенная и несостоятельная.

Метод инструментальных переменных. Пусть существуют некоторые переменные , коррелированные с и независимые с , – «инструментальные переменные»:

;

– состоятельная оценка вектора коэффициентов в (6).

Замечание: аналогичным способом можно было бы “вывести” и обычную формулу МНК-оценки.

Пример (Модель Кейнса):

– потребление в стране в -м году;

– совокупный выпуск;

– случайная особенность -го года;

– инвестиции.

(7, 8)

(4) –> (5): .

Видно, что зависит от , поэтому , оцененная по данным уравнения (7), – смещенная и несостоятельная.

Возьмем в качестве инструментальной переменной: по (8) она коррелирует с , не зависит от , т.к. инвестиции – экзогенная переменная, и определяется другими причинами (может быть, политическими решениями), нежели :