Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Ekonometrika / Лекции / Л_09_10.doc
Скачиваний:
50
Добавлен:
10.04.2015
Размер:
760.83 Кб
Скачать

§ 4.9. Фиктивные переменные во множественной регрессии

До сих пор в качестве факторов рассматривались экономические переменные, принимающие количественные значения в некотором интервале. Вместе с тем может оказаться необходимым включить в модель фактор, имеющий два или более качественных уровней. Это могут быть разного рода атрибутивные признаки, такие, например, как профессия, пол, образование, климатические условия, принадлежность к определенному региону. Чтобы ввести такие переменные в регрессионную модель, им должны быть присвоены те или иные цифровые метки, т.е. качественные переменные преобразованы в количественные. Такого вида сконструированные переменные в эконометрике принято называть фиктивными переменными. В отечественной литературе можно встретить термин «структурные переменные».

Рассмотрим применение фиктивных переменных для функции спроса. Предположим, что по группе лиц мужского и женского пола изучается линейная зависимость потребления кофе от цены. В общем виде для совокупности обследуемых уравнение регрессии имеет вид:

,

где – количество потребляемого кофе;– цена.

Аналогичные уравнения могут быть найдены отдельно для лиц мужского пола: и женского пола:.

Различия в потреблении кофе проявятся в различии средних и. Вместе с тем сила влияниянаможет быть одинаковой, т. е.. В этом случае возможно построение общего уравнения регрессии с включением в него фактора «пол» в виде фиктивной переменной. Объединяя уравненияии вводя фиктивные переменные, можно прийти к следующему выражению:

,

где и– фиктивные переменные, принимающие значения:

.

В общем уравнении регрессии зависимая переменная у рассматривается как функция не только цены, но и пола (,). Переменная рассматривается как дихотомическая переменная, принимающая всего два значения: 1 и 0. При этом когда =1, то=0 и, наоборот, при=0 переменная=1.

Для лиц мужского пола, когда и, объединенное уравнение регрессии составит:, а для лиц женского пола, когдаи,. Иными словами, различия в потреблении для лиц мужского и женского пола вызваны различиями свободных членов уравнения регрессии:. Параметрявляется общим для всей совокупности лиц, как для мужчин, так и для женщин.

Следует иметь в виду, что при введении фиктивных переменных ив модельприменение МНК для оценивания параметровиприведет к вырожденной матрице исходных данных, а следовательно, и к невозможности получения их оценок. Объясняется это тем, что при использовании МНК в данном уравнении появляется свободный член, т. е.yравнение примет вид

.

Ранее говорилось только о качественном факторе, который имел только два состояния, которым и соответствовали обозначения 1 и 0. Если же число градаций качественного признака-фактора превышает два, то в модель вводится несколько фиктивных переменных, число которых должно быть меньше числа качественных градаций. Только при соблюдении этого положения матрица исходных фиктивных переменных не будет линейно зависима и возможна оценка параметров модели.

В отдельных случаях может оказаться необходимым введение двух и более групп фиктивных переменных, т. е. двух и более качественных факторов, каждый из которых может иметь несколько градаций. Например, при изучении потребления некоторого товара наряду с факторами, имеющими количественное выражение (цена, доход на одного члена семьи, цена на взаимозаменяемые товары и др.), учитываются и качественные факторы. С их помощью оцениваются различия в потреблении отдельных социальных групп населения, дифференциация в потреблении по полу, национальному составу и др. При построении такой модели из каждой группы фиктивных переменных следует исключить по одной переменной. Так, если модель будет включать три социальные группы, три возрастные категории и ряд экономических переменных, то она примет вид:

,

где – потребление;

–экономические (количественные) переменные.

Фиктивные переменные широко используются для оценки сезонных различий в потреблении. Учет сезонного фактора при построении динамических моделей рассмотрен позже.

Фиктивные переменные могут вводиться не только в линейные, но и в нелинейные модели, приводимые путем преобразований к линейному виду.

Включение в модель фиктивных переменных может иметь цель отразить в модели неоднородность совокупности. Однако нельзя рассматривать фиктивные переменные как панацею при применении методов регрессии к неоднородным данным.

До сих пор мы рассматривали фиктивные переменные как факторы, которые используются в регрессионной модели наряду с количественными переменными. Вместе с тем возможна регрессия только на фиктивных переменных. Например, изучается дифференциация заработной платы рабочих высокой квалификации по регионам страны. Модель заработной платы может иметь вид:

,

где – средняя заработная плата рабочих высокой квалификации по отдельным предприятиям;

Поскольку последний район, указанный в модели, обозначен , то в исследование включенорайон.

Ввиду того, что факторы данной регрессионной модели выражены как дихотомические признаки, параметры модели имеют свою специфику по сравнению с традиционной их интерпретацией. Параметр представляет собой среднее значение результативного признака для базовой группы. Параметрхарактеризует разность средних уровней результативного признака для группы 1 и базовой группы 0. Соответственно параметрпредставляет собой разность междуи. Иными словами, коэффициенты приотражают величину эффекта соответствующей группы фактора. Рассмотрим применение данной модели на следующем условном примере.

Пример: Распространенность ручного труда на предприятиях одной отрасли в зависимости от уровня автоматизации производства

Уровень автоматизации производства

Число заводов

Процент рабочих ручного труда в общей численности рабочих

На каждом заводе данной группы

В среднем по группе

Высокий

8

31, 37, 38, 39, 35, 32, 34, 34

35,0

Средний

12

40, 45, 47, 48, 46, 48, 50, 52, 39, 43, 44, 56

46,5

Низкий

10

47, 54, 59, 55, 57, 56, 65, 57, 55, 61

56,6

Итого

30

46,8

По данным этой таблицы рассматривается следующая регрессионная модель:

,

где – процент рабочих ручного труда в общей численности рабочих;

–уровень автоматизации производства;

В качестве базовой группы, с которой ведется сравнение уровня занятости ручным трудом, выступают предприятия с низким уровнем автоматизации производства.

Регрессионная модель, исходя из средних уровней, приведенных в последней графе таблицы, составит:

Она показывает, что на предприятиях с низким уровнем автоматизации производства средний процент рабочих ручного труда равен 56,6. На предприятиях с высоким уровнем автоматизации производства распространенность ручного труда ниже на 21,6 проц. пункта , а на предприятиях со средним уровнем автоматизации производства - ниже на 10,1 проц. пунктапо сравнению с предприятиями третьей группы.

В справедливости данного уравнения регрессии можно убедиться, обратившись к методу наименьших квадратов.

Индекс детерминации для данной модели составит:

,

что статистически значимо: -критерийприи при степенях свободы 2 и 27,.

Поскольку коэффициенты при фиктивных переменных в модели, не содержащей других экономических факторов, характеризуют величину эффектов -го уровня фактора, то регрессионная модель по своему содержанию тождественна дисперсионной модели. В основе нашего примера лежит дисперсионная модель вида

,

где -е наблюдение результативного признака на-м уровне исследуемого фактора (в примере;);

–среднее значение результативного признака в целом по совокупности (в примере );

–эффект, обусловленный -м уровнем фактора;

–случайная ошибка в -м наблюдении на-м уровне изучаемого фактора; величина, на которую фактический уровень результативного признакаотличается от его среднего значения для-ro уровня фактора, т. е. .

Так, подставляя в уравнение регрессии ,, получимдля каждого завода первой группы по уровню автоматизации производства, что является средней величиной для данной группы (см. табл.). Соответственно подставляя в уравнение регрессии,, получим:.

Ввиду того, что теоретические значения результативного признака в рассматриваемой модели представляют собой групповые средние (), общая сумма квадратов отклоненийраскладывается на одни и те же составляющие как в регрессионном, так и в дисперсионном анализе. Так, для дисперсионного анализа имеем:

.

Для регрессионной модели данное равенство примет следующий вид:

.

Но так как , то факторная и остаточная суммы квадратов, найденные по регрессионной модели и по модели дисперсионного анализа, совпадают (см. следующую таблицу).

Источники вариации

Число степеней свободы

Сумма квадратов, SS

Дисперсия на одну степень свободы, D

F-отношение

фактическое

Табличное,

Различия между факторами (за счет регрессии)

2

2075,4

1037,7

54,6

3,35

Различия внутри фактора (остаточная)

27

513,4

19,0

1

Общая

29

2588,8

Мы рассмотрели модели с фиктивными переменными, в которых последние выступают факторами. Может возникнуть необходимость построить модель, в которой дихотомический признак играет роль результата. Подобного вида модели применяются, например, при обработке данных социологических опросов. В качестве зависимой переменной рассматриваются ответы на вопросы, данные в альтернативной форме: «да» или «нет». Поэтому зависимая переменная имеет два значения: 1, когда имеет место ответ «да», и 0 – во всех остальных случаях. Модель такой зависимой переменной имеет вид:

.

Модель является вероятностной линейной моделью. В ней принимает значения 1 и 0, которым соответствуют вероятностии. Поэтому при решении модели находят оценку условной вероятности событияпри фиксированных значениях. Такого рода модели используют при работе с неколичественными переменными. Как правило, это модели выбора из заданного набора альтернатив.

Среди моделей с фиктивными переменными наибольшими прогностическими возможностями обладают модели, в которых зависимая переменная рассматривается как функция ряда экономических факторови фиктивных переменных. Последние обычно отражают различия в формировании результативного признака по отдельным группам единиц совокупности, т. е. в результате неоднородной структуры пространственного или временного характера.

Пример. Проанализируем с использованием фиктивных переменных зависимость урожайности пшеницы от вида вспашкии количества внесенного органического удобрения.

По 25 наблюдениям уравнение парной регрессии (без учета вида вспашки) составило:

;

; ;;.

Для его расчета использовалась следующая система нормальных уравнений:

Уравнение регрессии статистически значимо – ,,превышают табличные значения: (при 5 %-ном уровне существенности и числе степеней свободы 23:;;).

По виду вспашки поля характеризовались двумя категориями: зяблевая и весенняя. Вид вспашки не влияет на количество внесенных удобрений, но обусловливает различия в урожайности. Чтобы убедиться в этом, введем в уравнение регрессии фиктивную переменную для отражения эффекта вида вспашки, а именно:для зяблевой вспашки идля весенней вспашки. Уравнение регрессии примет вид:

.

Применяя метод наименьших квадратов для оценки параметров данного уравнения, получим следующую систему нормальных уравнений:

Ввиду того, что принимает лишь два значения (1 и 0),(число полей с зяблевой вспашкой),(количество внесенных удобрений на полях с зяблевой вспашкой),,(суммапо полям зяблевой вспашки).

В рассматриваемом примере вся совокупность из 25 единиц подразделена на две подгруппы: с зяблевой вспашкой – 13 полей и с весенней - 12 полей, т. е. и. Соответственно разделению на эти две группы имеем:

;

.

Тогда система нормальных уравнений примет вид:

Peшая ее, получим уравнение регрессии .

Уравнение регрессии статистически значимо: ,,,,,.

Как видим, добавление в регрессию фиктивной переменной существенно улучшило результат модели: доля объясненной вариации выросла с 27,5% до 58,7%. При этом сила влиянии количества внесенных органических удобрений на урожайность осталась практически неизменной: коэффициент регрессии, по существу, одинаковы (0,326 в парном уравнении и 0,331 во множественном). Корреляция между видом вспашки и количеством внесенного удобрения на 1 га практически отсутствует:.

Применение зяблевой вспашки способствует росту урожайности в среднем на 2,9 ц с 1 га при одном и том же количестве внесенного удобрения на 1 га, что в целом соответствует и различию средней урожайности по видам вспашки (15,3 ц с 1 га для зяблевой вспашки и 12,5 ц с 1 га для весенней вспашки). Частный -критерий для факторасоставил 16,58, что выше табличного знамения при числе степеней свободы 1 и 22 (4,30 при). Это подтверждает целесообразность включения фиктивной переменной в уравнение регрессии.

Уравнения парной регрессии по отдельным видам вспашки показывают, практически, единую меру влияния количества внесенного удобрения на урожайность:

, – при зяблевой вспашке;

, – при весенней вспашке.

Поэтому вполне реально предположить единую меру влияния данного фактора независимо от вида вспашки, что и имеет место в уравнении регрессии с фиктивной переменной. Включив фиктивную переменную, удалось измерить ее влияние на изменение урожайности: частный коэффициент корреляции оценивающий в чистом виде влияние данного фактора, составил , что несколько выше, чем аналогичный показатель для фактора, т.е..

Частные уравнения регрессии по отдельным видам вспашки составили:

–для зяблевой вспашки;

–для весенней вспашки.

Как видим, функция урожайности для первой группы (при ) параллельна функции для второй группы, но сдвинута вверх.

Пример. Проанализируем зависимость цены двухкомнатной квартиры от ее полезной площади. При этом в модель могут быть введены фиктивные переменные, отражающие тип дома: «хрущевка», панельный, кирпичный.

При использовании трех категорий домов вводятся две фиктивные переменные: и. Пусть переменнаяпринимает значение 1 для панельного дома и 0 для всех остальных типов домов; переменнаяпринимает значение 1 для кирпичных домов и 0 для остальных; тогда переменныеипринимают значения 0 для домов типа «хрущевки».

Предположим, что уравнение регрессии с фиктивными переменными составило:

.

Частные уравнения регрессии для отдельных типов домов, свидетельствуя о наиболее высоких ценах квартир в панельных домах, будут иметь следующий вид:

  • «хрущевки» – ;

  • панельные – ;

  • кирпичные – .

Параметры при фиктивных переменных ипредставляют собой разность между средним уровнем результативного признака для соответствующей группы и базовой группы. В рассматриваемом примере за базу сравнения цены взяты дома «хрущевки», для которых. Параметр при(2200) означает, что при одной и той же полезной площади квартиры цена ее в панельных домах в среднем на 2200 долл. США выше, чем в «хрущевках». Соответственно параметр припоказывает, что в кирпичных домах цена выше в среднем на 1600 долл. при неизменной величине полезной площади по сравнению с указанным типом домов.

Пример. Рассмотрим зависимость среднего уровня квалификации рабочих от сферы применения ручного труда. Если неоднородность вызвана резкими качественными различиями единиц совокупности, обусловливающими искажения характера рассматриваемой связи признаков и, то фиктивные переменные мало изменят результаты анализа. В этом случае более результативным является построение уравнений регрессии по отдельным группам совокупности (см. таблицу).

Соседние файлы в папке Лекции