Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Басовский Л ответы.doc
Скачиваний:
69
Добавлен:
15.04.2019
Размер:
545.28 Кб
Скачать

Модели множественной линейной регрессии

Регрессионный анализ позволяет получать модели зависимости одной переменной-отклика Y от нескольких переменных-регрессоров xi (I = 1,..., n):

Y = a0 + a1  x1, + a2  x2 + a3  xi + ... + an  xn + ε, (8.5)

где Y – функция, xi – переменные-регрессоры (факторы);

a0,..., an – постоянные коэффициенты (параметры);

n – число регрессоров;

 – случайная ошибка.

Такая модель может быть получена и оценена подобно моделям простой регрессии. Но обычно необходимо построить регрессионную модель с минимальным и достаточным для описания поведения экономической или производственной системы набором переменных. Необходимость добиться высокого уровня детерминации определяет тенденцию к включению в состав модели большого числа переменных.

Но чем больше переменных включает модель, тем больше среди них оказывается взаимосвязанных и взаимозависимых регрессоров. Корреляция между регрессорами снижает точность. Модель, для построения которой использованы сильно коррелированные данные может быть вообще ошибочной. На практике переменные далеко не всегда могут быть независимыми, поэтому далее мы будем, по возможности, избегать этого термина.

Метод пошаговой регрессии, включенный во многие статистические пакеты, позволяет из множества исходных переменных производить отбор тех переменных, которые наиболее значимы для адекватного представления исходных данных. Этот метод позволяет, во-первых, построить более простую, сокращенную модель, а, во-вторых, при последующем сборе данных не регистрировать несущественные переменные. Он может быть использован в качестве предварительного этапа перед построением нелинейной модели.

Имеется три разновидности процедуры отбора переменных, каждая из которых может давать различный конечный набор переменных.

1. Метод последовательного включения. На первом шаге в модель включается переменная, которая имеет наибольший коэффициент корреляции с зависимой переменной. На каждом шаге в модель добавляется та переменная, которая имеет наибольший частный коэффициент корреляции, до тех пор, пока статистические характеристики не перестают улучшаться.

2. Метод последовательного исключения состоит в удалении на очередном шаге из имеющегося набора той переменной, которая имеет наименьший частичный коэффициент корреляции. Процесс прекращают, когда удаление очередной переменной может ухудшить характеристики модели.

3. Метод пошагового включения-исключения состоит в сочетании двух указанных выше методов, когда на каждом шаге вычислительного процесса производится включение некоторой переменной, после чего предпринимается попытка исключения из полученного набора некоторых других переменных.

Частный коэффициент корреляции, как известно, интерпретируется как корреляция между переменной-регрессором и зависимой переменной, когда эффекты корреляции других переменных элиминированы.

Фиктивные переменные. Некоторые переменные могут принимать всего два значения или дискретное множество значений. Необходимость рассматривать такие переменные возникает довольно часто в тех случаях, когда требуется принимать во внимание какой-либо качественный признак. Например, при исследовании зависимости заработной платы от различных факторов может возникнуть вопрос, влияет ли на ее размер и, если да, – то в какой степени наличие у работника высшего образования. Также можно задать вопрос, существует ли дискриминация в оплате труда между мужчинами и женщинами.

В примере с зарплатой для ответа на этот вопрос можно поступить следующим образом. Включим в рассмотрение такой фактор, как наличие или отсутствие высшего образования. Введем новую, бинарную, переменную d, полагая d = 1, если индивидуум имеет высшее образование, и d = 0 – в противном случае.

Если включаемый в рассмотрение качественный признак имеет не два, а несколько значений, то используют несколько бинарных переменных.

Типичным примером подобной ситуации является исследование сезонных колебаний производства. Например, изучая потребление некоторого продукта по месяцам, можно заметить, что потребление зависит от времени года. Для выявления влияния сезонности можно ввести три бинарные переменные: d1, d2, d3:

d1 = 1, если месяц является зимним, d1 = 0 – в остальных случаях;

d2 = 1, если месяц является весенним, d2 = 0 – в остальных случаях;

d3 = 1, если месяц является летним, d3 =0 – в остальных случаях.

Потребление оценивается уравнением:

у = ао + ах  d1 + а2  d2 + а3  d3 (8.6)

Четвертая бинарная переменная, относящаяся к осени, не вводится, так как тогда для любого месяца будет выполняться тождество d1 + d2 + d3 + d4 = 1, что означало бы линейную зависимость регрессоров и как следствие невозможность получения оценок параметров модели методом наибольших общих квадратов, используемым в большинстве статистических пакетов.

Фиктивные переменные, несмотря на свою внешнюю простоту, являются весьма гибким инструментом для оценки влияния качественных признаков.

Пример. Определим влияние функционирования высших учебных заведений в регионах России на рентабельность промышленного производства с лагом продолжительностью в два года. Используем данные Госкомстата России о работе промышленности в 1995 г. и о работе вузов, готовящих экономистов в 1993 г., фиктивные переменные и метод включения. В качестве факторов примем факты наличия в регионах экономических вузов и факультетов, подготовку по разным специальностям и направлениям. Модель рентабельности продукции в процентах имеет вид:

 = 10,340 + 6,275 × x1 + 3,231 × x2 + 2,709 × x3 (8.7)

(1,048) (1,904) (1,410) (1,300)

где  – рентабельность продукции по балансовой прибыли в процентах;

x1 – наличие в регионе экономических вузов (x1 = 1, иначе – 0);

x2 – наличие системы заочной подготовки, в том числе в форме второго высшего образования по специальности «Финансы и кредит» (x2 = 1, иначе – 0);

x3 – наличие экономических факультетов в университетах региона (x3 = 1, иначе – 0);

уровень детерминации модели (R2прив) составил 18,73%.