Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
курсовая Ксю.doc
Скачиваний:
33
Добавлен:
13.07.2019
Размер:
205.82 Кб
Скачать

Математический лист

Логистическая регрессия выражает модель связи между откликом и переменными в виде формулы

, (8.16)

где переменная Y= 1/X1,…,Xp называется логитом. Такая модель с бинарной зависимой переменной, по сути, является функцией логистического закона распределения

, (8.17)

в которой в качестве аргумента используется линейная комбинация независимых переменных.

Наряду с моделью, имеющей логистически распределенное отклонение, используют также близкую ей модель пробит с нормально распределенным отклонением.

Предлагается два вида моделей выбора, которые могли бы порождать интересующие нас распределения зависимой переменной: пороговая модель и модель, основанная на полезности альтернатив.

Пороговая модель предполагает, что прогнозирование отклика основывается на ненаблюдаемой непрерывной переменной , математическое ожидание которой является линейной комбинацией набора регрессоров X: + ε i . Отклик Y, являющийся дискретной величиной, связан с следующим образом: если больше некоторой пороговой величины C, то Y = 1, если меньше, то Y = 0. Как обычно предполагается, что ошибки ε i имеют нулевое математическое ожидание, одинаково распределены и независимы. Величину C обычно принимают равной 0.5. Пробит- или логит-уравнение задает задает в этом случае гиперплоскость, которой разделяются две группы точек: < 0.5 при Y = 0 и > 0.5 при Y = 1.

Множественный логит- или пробит-анализ являются естественным продолжением бинарного и возникают, когда рассматривается выбор между более, чем двумя альтернативами. Упорядоченный логит, развивающий пороговую модель, имеет дело с альтернативами, которые можно расположить в определенном порядке. Например, это могут быть шкала оценок класса качества вод, зоны сапробности и т.д.

Будем предполагать, что альтернативы пронумерованы от 0 до S, а переменная Y принимает значение s, если выбрана альтернатива s. Как и в бинарной модели, в основе выбора лежит ненаблюдаемая величина + ε i , для ранжирования которой рассчитывается s пороговых значений γ1, γ2,…,γs. Предполагается, что Y = 0, если меньше нижнего (первого) порогового значения, Y = 1, если попадает в промежуток от первого до второго порогового значения и т. д.; Y = S выбирается, если превышает верхнее пороговое значение, т.е.:

Yi =

Коэффициенты пробита и логита обычно оценивают методом максимального правдоподобия, рассмотрение теоретических аспектов которого выходит за рамки нашего изложения. Статистика отношения правдоподобия, которая распределена асимптотически как χ2 с m –1 степенями свободы, где m – количество параметров в исходной модели, используется для построения показателя качества модели, аналогичного F-статистике для линейной регрессии, т.е. для проверки гипотезы о том, что коэффициенты при всех регрессорах, кроме константы, равны одновременно нулю. Для моделей с бинарной зависимой переменной можно сконструировать и некий аналог коэффициента детерминации — псевдо-R2: Однако для логистической регрессии, существует наиболее естественный критерий качества – вероятность ошибки при оценке прогнозируемых альтернатив. Понятно, что "хорошая" модель должна давать высокий процент правильных предсказаний.

Если категории прогнозируемого отклика не упорядочены (например, сравниваются наблюдения для различных водоемов), то предполагается, что выбор делается на основе функции полезности альтернатив u(Y, X). Для бинарной модели, если u(1, X) > u(0, X), то выбираем 1, а если u(0, X) < u(1, X), то выбираем 0. Для множественного логита Yi выбирается равным s, если us(Zi) > ut (Zi)  st. При выборе вида функции полезности обычно делают одно из двух упрощающих допущений:

  • регрессоры для всех альтернатив одни и те же: us Z  s +  s ;

  • функция имеет один и тот же вид, а меняются только факторы, определяющие выбор, т.е.

us Zs  +  s.

При этом также принимается, что ошибки  s имеют стандартное распределение Вейбулла F (X) = e e X (см. рис.8.1).