Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Эконометрика ИСЭМ.docx
Скачиваний:
35
Добавлен:
16.04.2015
Размер:
424.28 Кб
Скачать

Результаты однофакторного дисперсионного анализа (двухфакторной регрессионной модели с фиктивными переменными).

Источники вариации

Число степеней свободы

Суммы квадратов

Дисперсия на одну степень свободы

F - отношение

фактическое

табличное

α = 0,05

Различия между уровнями фактора (за счет регрессии)

2

2075,4

1037,7

54,6

3,35

Внутри фактора (остаточная)

27

513,4

19,0

1

-

Итого:

29

2588,8

-

-

-

Мы рассмотрели модели с фиктивными переменными, в которых последние выступают факторами. В отдельных случаях может строиться модель, в которой дихотомический признак используется не в качестве фактора, а как результат. Подобного вида модели применяются, например, при обработке данных социологических опросов. В качестве зависимой переменной y рассматриваются ответы на вопросы, данные в альтернативной форме: да, нет. Поэтому зависимая переменная имеет два значения: 1, когда имеет место ответ «да», и 0 - во всех остальных случаях. Модель такой зависимой переменной имеет вид:

.

Она является вероятностной линейной моделью. В ней y принимает значения 1 и 0, которым соответствуют вероятности p и 1 - p. Поэтому при решении модели находятся задачу оценки условной вероятности события y при фиксированных значениях x. Для оценки параметров линейно-вероятностной модели применяются методы Logit-, Probit- и Tobit-анализа7. Такого рода модели требуется исследовать работающим с неколичественными переменными. Как правило, это модели выбора из заданного набора альтернатив. Зависимая переменная y представлена дискретными значениями (набор альтернатив), объясняющие переменные - характеристики альтернатив (время, цена), - характеристики индивидов (возраст, доход, уровень образования). Модель такого рода позволяет предсказать долю индивидов в генеральной совокупности, которые выбирают данную альтернативу.

Рассмотрим простейшую линейно-вероятностную модель:

у = а + вх + ε

Предположим у – использование прогрессивной технологии, х – возраст оборудования (в годах).

Поскольку у – дихотомический признак, то при построении модели определяется среднее ожидаемое значение у, т.е. , что соответствует вероятности наступления события при фиксированном среднем значении х. Это накладывает отпечаток на интерпретацию коэффициента регрессии «в». Он показывает среднее изменение вероятности наступления события. Так, если = 0,85 – 0,0375х, что, следовательно, с ростом возраста оборудования на 1 год вероятность использования прогрессивной технологии снижается в среднем на 0,0375, или, если ее выразить в процентах, то на 3,75 процентных пункта.

Вместе с тем, необходимо отметить, что в ряде случаев в модели у = а + вх + ε, где у – фиктивная переменная, применение обычного МНК может привести к неинтерпретируемым результатам анализа: при подстановке в регрессию индивидуальных значений х отдельные величины у могут оказаться либо < 0, либо > 1, что противоречит самой постановке задачи.

Кроме того, в теории доказывается, что оценки, полученные по МНК для линейно вероятностных моделей, страдают дефектом, ибо не соблюдается ряд предпосылок МНК:

- остаточные величины не являются нормально распределенными;

- дисперсия отклонений ε может зависеть от значений х, что вполне естественно, ибо обычно рассматриваются качественно разные группы, когда у = 1 х может иметь одну вариацию, а при у = 0 – другую.

В виду того, что в ряде случаев использование МНК к вероятностно-линейным моделям страдает погрешностями, то рекомендуется строить –– Logit модель.

В Logit – модели условная вероятность р представляет собой нелинейную функцию:

,

для определения которой используется метод максимального правдоподобия. Обозначим через z. Тогда:

, а .

Отсюда можно найти отношение, которое характеризует, во сколько раз вероятность Рi (при уi = 1), больше чем вероятность 1– Pi (при уi = 0).

.

Далее прологарифмировав, получим

или

- Logit – модель.

Для оценки параметров Logit-модели сначала определяются значения вероятностей Pi, используя метод максимального правдоподобия. Далее расчеты можно вести, используя взвешенный МНК (см. главу 4. Обобщенный метод наименьших квадратов).

К классу моделей с фиктивными переменными относятся также Тобит-модели.

Тобит-модели – это модели регрессии, содержащие в себе в качестве результата так называемые цензурированные переменные. Цензурированными называют переменные, наблюдаемые значения которых, большие (меньшие) определенной величины ("порога цензурирования"), берутся в неизменном виде, а значения переменной, равные или меньшие (большие) данной величины, приравниваются этой величине. В формульном виде:

(цензурирование снизу)

или

(цензурирование сверху)

где с – константа.

Частным случаем является с=0. Модель регрессии, включающая цензурированную (при с=0 и цензурировании снизу) переменную в качестве фактора, называется тобит-моделью:

где

а, b1, b2, … bp – неизвестные параметры модели;

x1, x2, …xp – переменные – факторы;

ε – случайные остатки.

Создатель первой такой модели – нобелевский лауреат Джеймс Тобин. Он изучал расходы семьи на автомобили. Эти расходы неотрицательны или равны нулю (в случае отказа от покупки автомобиля). Дж. Тобин показал, что если построить уравнение степенной регрессии расходов на автомобили от доходов семьи и найти его параметры с помощью МНК, то они будут смещенными и несостоятельными. Для получения более корректных выводов нулевые расходы следует рассматривать не как настоящие, а как наблюдаемые. Реальные же "расходы" равны отрицательным величинам. Для решения задачи нахождения параметров регрессии в данном случае может быть применен метод максимального правдоподобия (ММП).

Напомним, что для построения функции правдоподобия необходимо указать закон распределения наблюдаемых значений зависимой переменной Y, которые рассматриваются как отдельные случайные величины. Предположим, что эти величины независимы и распределены по нормальному закону с математическим ожиданием, равным теоретическому (найденному по уравнению регрессии) значению и некоторым средним квадратическим отклонением σε = σi, одинаковым для всех наблюдений. В соответствии с определением тобит-модели, все зависимые переменные, входящие в нее делятся на две группы. В первой фактические значения равны наблюдаемым, во второй фактические значения занимают область от минус бесконечности до нуля, а наблюдаемые равны нулю.

Для первой группы закон распределения каждой из величин Yi определяется плотностью нормального распределения:

Для наблюдений из второй группы по каждому наблюдению можно сказать следующее. При заданном наборе значений факторов среднее значение переменной Yi равно теоретическому значению, среднее квадратическое отклонение составляет σε. Фактическое значение у неизвестно, известно лишь, что оно находится на интервале [-∞; 0]. Вероятность попадания значений переменной Yi в этот интервал составляет:

Преобразуем эту формулу. Для этого, во-первых, представим интеграл на интервале [- ∞; 0] как сумму двух интегралов – на интервале [- ∞;] и интервале [; 0] (по условию, ≤0):

Так как нормальное распределение имеет плотность распределения, симметричную относительно математического ожидания , то первое слагаемое равно 0,5 (оно показывает вероятность того, что фактическое значение переменной Yi не превысит ее математического ожидания). Для преобразования второго слагаемого можно воспользоваться следующей формулой для вероятности нахождения значений переменной Yi в интервале [α; β]:

где Ф(х) – нормированная функция нормального распределения (с математическом ожиданием, равным нулю, и средним квадратическим отклонением, равным нулю):

В нашем случае α=, β=0. Таким образом, получаем:

Значение нормированной функции Ф(0) равно 0,5. В силу симметричности распределения относительно нуля, Ф(-х)=1-Ф(х). С учетом этого:

Функция правдоподобия равна (или пропорциональна) вероятности появления наблюдаемых значений переменной Y. Для независимых величин эта вероятность равна произведению вероятностей появления отдельных значений yi.Вероятность появления наблюдений первой группы (наблюдаемые величины равны фактическим) определяется через плотность распределения f(yi). Вероятность появления наблюдений второй группы есть вероятность того, что фактическая величина меньше или равна нулю. Она выражается через функцию нормального распределения Fi(0). Таким образом, функция правдоподобия равна:

или

Логарифмическая функция правдоподобия равна:

или, раскрывая значения функций f(yi) и Ф():

Для нахождения максимума логарифмической функции правдоподобия найдем производные по неизвестным параметрам а, b1, b2, … bp, σε. При дифференцировании учтем, что:

  1. теоретическое значение результата выражается через уравнение регрессии, содержащее неизвестные параметры а, b1, b2, … bp,;

  2. производная от нормированной нормальной функции Ф(х) равна ее плотности φ(х):

Для краткости и удобства чтения отдельные части выражения, получившегося в результате дифференцирования, заменим их стандартными обозначениями: , Ф(х), φ(х).

Для нахождения неизвестных параметров необходимо приравнять полученные выражения нулю и решить систему. Отметим, что данная система содержит нелинейные выражения, что не позволяет решить ее путем простых алгебраических преобразований. В этом случае используются итерационные процедуры, позволяющие найти оптимальные оценки параметров, опираясь на определенный алгоритм пошагового перебора различных значений параметров.

Среди моделей с фиктивными переменными наибольшими прогностическими возможностями обладают модели, в которых зависимая переменная y рассматривается как функция ряда экономических факторов xi и фиктивных переменных zi. Последние обычно отражают различия в формировании результативного признака по отдельным группам единиц совокупности, т.е. в результате структурных сдвигов пространственного или временного характера.

Для интерпретации параметров тобит-модели необходимо найти математическое ожидание зависимой переменной y и продифференцировать полученное выражение по независимой переменной xj , являющейся фактором в данной модели.

Математическое ожидание зависимой переменной yi равно сумме произведений математических ожиданий наблюдаемых значений yi при условии, что фактические значения меньше (или равны) или больше порога цензурирования, на соответствующие вероятности наступления этих событий:

Можно показать, что эта формула преобразуется в выражение:

Дифференцируя выражение для M(yi) по xj, получаем:

(*)

Таким образом, влияние фактора xj не является постоянным. Для "средней" характеристики его воздействия на результат в вышеприведенную формулу подставляют средние значения факторов. Так как функция распределения Ф изменяется в границах [0;1], то коэффициент bj можно проинтерпретировать как верхний предел среднего изменения результата y при единичном изменении фактора xj.

Рассмотрим пример построения тобит-модели. В качестве переменных выберем денежный доход одного человека (x) и его расходы на покупку антиквариата (y). Для простоты возьмем некоторые условные числа (см. табл. 1).

Таблица 1