Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекция 4. Тобит-модели. doc.doc
Скачиваний:
9
Добавлен:
25.09.2019
Размер:
101.89 Кб
Скачать

2. Модели бинарного выбора

Для наглядности будем рассматривать модели бинарного выбора на примере покупки семьей автомобиля. Будем считать, что зависимая переменная у = 1, если в течение исследуемого периода времени семья купила автомобиль, и у = 0 в противном случае. Ясно, что на решение о покупке автомобиля влияют самые разные факторы: доход семьи, количество ее членов, их возраст, место проживания семьи и т.д. Набор этих характеристик можно представить вектором (независимые переменные). Будем полагать также, что на решение семьи влияют также неучтенные случайные факторы (ошибки). Выдвигая различные предположения о характере зависимости у от х, будем получать разные модели. Мы рассмотрим три модели: линейную модель вероятности и так называемые probit- и logit- модели.

2.1. Линейная модель вероятности

Воспользуемся обычной линейной моделью регрессии:

где t – номер наблюдения (семьи),

– набор неизвестных параметров (коэффициентов);

εt – случайная ошибка.

Так как yt принимает значения 0 или 1 и М(εt) = 0, то

Таким образом, модель (1) может быть записана в виде

поэтому ее называют линейной моделью вероятности.

Отметим некоторые особенности этой модели, наличие которых не позволяет успешно применять МНК для оценивания коэффициентов и прогнозирования.

Из (1) следует, что ошибка ε в каждом наблюдении может принимать только два значения: с вероятностью P(yt = 1) и с вероятностью 1 – P(yt = 1). Это не позволяет считать ошибку нормально распределенной. Далее, непосредственным вычислением получаем, что дисперсия ошибки

зависит от xt , т.е. модель (1) гетероскедастична. Как известно, оценки коэффициентов , полученные обычным МНК, в этом случае не являются эффективными, и желательно пользоваться обобщенным МНК.

Самым серьезным недостатком линейной модели вероятности является тот факт, что прогнозные значения , которые по смыслу модели есть прогнозные значения вероятности P(yt = 1), могут лежать вне отрезка 0; 1, что не поддается разумной интерпретации. Это существенно ограничивает область применимости линейной модели вероятности. Ее целесообразно использовать при большом числе наблюдений и при достаточно точной спецификации модели, а также как инструмент первичной обработки данных для сравнения с результатами, получаемые более тонкими методами.

2.2. Probit- и logit- модели

Основной недостаток линейной модели вероятности есть следствие предположения о линейной зависимости вероятности P(yt = 1) от . Его можно преодолеть, если считать, что

P(yt = 1) = F(xt'), (3)

где F(.) – некоторая функция, область значения которой лежит в отрезке

0, 1. В частности, в качестве F(.) можно взять функцию распределения некоторой случайной величины. Одна из возможных интерпретаций модели (3) выглядит следующим образом. Предположим, что существует некоторая количественная переменная , связанная с независимыми переменными xt обычным регрессионным уравнением

yt* = xt' + εt , (4)

где ошибки εt независимы и одинаково распределены с нулевым средним и дисперсией σ2. Пусть также F(.) – функция распределения нормированной случайной ошибки εt/σ. Величина является ненаблюдаемой, а решение, соответствующее значению уt = 1, принимается тогда, когда превосходит некоторое пороговое значение. Так, в примере с покупкой автомобиля можно сказать, что представляет накопления семьи с номером t. Без ограничения общности , если константа включена в число регрессоров, можно считать это пороговое значение равным нулю. Величину можно также интерпретировать как разность полезностей альтернативы 1 и альтернативы 0.

Таким образом,

yt = 1, если ≥ 0,

уt = 0, если < 0. (5)

Тогда предполагая, что случайные ошибки εt имеют одно и то же симметричное распределение F(.) (т.е. F(-x) =1 – F(x)), получаем:

P(yt = 1) = P( ≥ 0) = P(xt' + εt ≥ 0) = Pt ≥ –xt') =

P(εt ≤ xt') = F(xt'/σ), (6)

что с точностью до нормировки совпадает с (3).

Замечание. В модели (4) – (6) параметры и σ участвуют только в виде отношения и не могут быть по отдельности идентифицированы (т.е. оценить можно только лишь ). Поэтому в данном случае без ограничения общности можно считать, что σ = 1.

Наиболее часто в качестве функции F(.) используют:

а) функцию стандартного нормального распределения:

и соответствующую модель называют пробит-моделью;

б) функцию логистического распределения:

и соответствующую модель называют логит-моделью.

Вопрос о том, какую из этих функций следует использовать в том или ином случае, достаточно сложен. Можно, например, выбрать ту модель, для которой больше значение соответствующей функции правдоподобия. Отметим также, что для значений u, достаточно близких по модулю к нулю, функции а) и б) ведут себя примерно одинаково.

Для оценивания параметров модели (3) обычно используют метод максимального правдоподобия.

3. Модели множественного выбора. Это модели, в которых используется не две, а несколько альтернатив. Их изучение основано на обобщении подходов и методов бинарного выбора.

а) номинальные зависимые переменные

Если соответствующая переменная является номинальной (качественной), то множественный выбор может быть представлен как последовательность бинарных выборов. Поясним это примером. Пусть изучается выбор одной из трех профессий: инженер, научный работник, преподаватель. Введем три бинарных переменных, соответствующих каждой профессии: yi = 1 для инженеров, yi = 0 для всех остальных; ys = 1 для научных работников, ys = 0 для всех остальных; yt = 1 для преподавателей, yt = 0 для всех остальных.

Тогда выбор одной из трех альтернатив можно описать в виде «дерева» последовательных решений, в узлах которого происходит бинарный выбор.

В каждом узле, применяя технику оценивания для бинарных моделей, можно оценить условную вероятность выбора соответствующей альтернативы. Безусловная вероятность вычисляется по формуле теоремы умножения вероятностей. Например,

P(yt = 1) = P(yi = 0, ys = 0) = P(yi = 0)P(ys = 0| yi = 0).

В последнем произведении первый сомножитель оценивается в первом узле (стрелка вниз), второй – во втором (стрелка вниз). Этот метод может быть обобщен на случай любого числа альтернатив.