- •П.Я. Бушин
- •Введение
- •Глава 1. Парная линейная регрессия и корреляция
- •1.1. Обычный метод наименьших квадратов (мнк) и его предпосылки
- •1.2. Оценки точности уравнения регрессии и его параметров
- •1.2.1. Стандартная ошибка оценки по регрессии
- •1.2.3. Интервальные оценки параметров уравнения регрессии
- •1.2.4. Проверка значимости параметров уравнения регрессии
- •1.2.7. Коэффициент ранговой корреляции Спирмена
- •1.3. Спецификация уравнения регрессии
- •0 1,22 1,42 2,58 2,78 4
- •1.4. Нелинейная корреляция и регрессия
- •1.4.2. Индекс корреляции
- •Глава 2. Множественная корреляция и регрессия
- •2.1. Множественный корреляционный анализ
- •2.1.1. Анализ матрицы парных коэффициентов корреляции
- •2.1.2. Частная и множественная корреляция
- •2.2. Линейная модель множественной регрессии
- •2.2.1. Уравнение множественной регрессии в натуральном масштабе
- •2.2.2.Стандартизованное уравнение множественной регрессии
- •2.2.3. Оценки точности уравнения множественной регрессии
- •2.2.4. Анализ остатков уравнения множественной регрессии на втокорреляцию
- •2.2.5. Пошаговый выбор переменных
- •0 0,9 1,83 2,17 3,1 4
- •2.3. Особые случаи использования мнк во множественной регрессии
- •2.3.1. Оценка параметров уравнения множественной регрессии в условиях мультиколлинеарности (пошаговый регрессионный анализ)
- •2.3.2. Оценка параметров уравнения множественной регрессии с автокоррелированными остатками
- •2.3.3. Оценка уравнения множественной регрессии с гетероскедастичными остатками (обобщенный мнк)
- •2.3.4. Регрессионные модели с переменной структурой (фиктивные переменные)
- •Глава 3. Анализ временных рядов
- •3.1. Характеристики временных рядов
- •3.2. Показатели точности прогноза
- •3.3. Анализ автокорреляций
- •3.4. Модели стационарных временных рядов
- •3.5. Модели нестационарных временных рядов
- •3.5.1. Прогноз по тренду
- •3.5.2. Прогнозирование на основе сезонной компоненты (сезонная декомпозиция временного ряда)
- •3.5.3. Прогноз по экспоненциально взвешенным скользящим средним (адаптивные методы прогнозирования)
- •Поквартальные данные продажи учебников
- •Расчет прогноза с учетом сезонной компоненты
- •Глава 4. Система одновременных эконометрических уравнений
- •4.1. Общие понятия о системах одновременных уравнений
- •4.2. Косвенный метод наименьших квадратов
- •4.3. Проблемы идентифицируемости
- •Библиографический список
- •Оглавление
- •Глава 1. Парная линейная регрессия и корреляция………………………………………4
- •Глава 2. Множественная корреляция и регрессия………………………………………..23
- •Глава 3. Анализ временных рядов………………………………………………………….58
- •Пример. Моделирование сезонной компоненты на основе
- •Учебное издание Павел Яковлевич Бушин эконометрика
2.3.4. Регрессионные модели с переменной структурой (фиктивные переменные)
До сих пор мы рассматривали случаи, когда в модели регрессии в качестве объясняющих переменных выступали численные величины. Но иногда бывает полезно в качестве независимых переменных рассматривать символьные или, как их еще называют, категориальные переменные, которые позволяют различать качественные характеристики на основе количественных мер. Обычно в роли таких переменных выступают дихотомические или, по-другому, бинарные переменные, которые могут принимать только два значения (обычно это 0 или 1).
Например, необходимо количественно различить доходы служащих с высшим и без высшего образования, для мужчин и женщин, или объем реализации сельхозпродукции в зависимости от сезона и пр. Такие переменные обычно называются фиктивными. Они позволяют отслеживать структурные изменения в анализируемых явлениях или процессах. При этом необходимо иметь в виду, что количество таких переменных должно быть на единицу меньше, чем число уровней изучаемого признака. Например, в первых двух рассмотренных случаях фиктивных переменных должно быть по одной (они принимают значения 1, если речь идет о мужчине и 0, если о женщине, или 1, если работник с высшим образованием и 0 – без высшего). В случае с сезонной составляющей таких переменных должно быть три, если речь идет о квартальных данных и 11, если рассматриваются данные по месяцам. Это необходимо для того, чтобы матрица исходных данных не содержала линейно зависимых столбцов, тогда для матрицы (ХтХ) можно будет рассчитать обратную матрицу, необходимую для вычисления оценок параметров уравнения регрессии.
Пример. Одна фиктивная переменная
Рассмотрим пример применения фиктивной переменной для моделирования зависимости суммы страховых платежей (у) при размещении ценных бумаг в зависимости от времени размещения (х1) и вида ценной бумаги (х2). Причем, если речь идет об акциях, тох2 = 1, в противном случаех2 = 0. Исходная информация для примера следующая:
Рассчитаем уравнение регрессии для случая, когда ценные бумаги не различаются.
Рис. 46. Окно отчета об уравнении простой регрессии
Здесь приведен сокращенный вариант отчета (без дисперсионного анализа регрессии), поскольку для парной регрессии достаточно иметь показатель точности только, например, для коэффициента регрессии. Коэффициент Дарбина – Уотсона здесь рассчитан для значений, упорядоченных по возрастанию независимой переменной х1.
Итак, при анализе условий размещении ценных бумаг зависимость суммы страховых взносов (у) от времени их размещения (х1) описывается уравнением= 330,5 – 7,67х1, если ценные бумаги не различаются по их видам. Если ценные бумаги разделить на облигации и прочие, то для облигаций такое уравнение будет иметь следующий вид:= 393 – 8,94* х1(R2 = 91,4 %), а для прочих бумаг –= 314,4 – 8,67* х1(R2= 86,5 %). Последние два уравнения рассчитывались отдельно для акций и прочих ценных бумаг. Как видим, эти уравнения оказались более точными, чем в целом по всем ценным бумагам, что говорит о том, что информация о ценных бумагах более однородная, если эти ценные бумаги разделить по их видам (число степеней свободы для каждого уравнения значительно уменьшилось, а уравнения оказались более точными). При этом, если коэффициенты при факторе “время” (при переменнойх1) различаются незначимо, то свободные члены – существенно. При равном времени размещения сумма платежей для облигаций выше, чем для акций в среднем на величину 78,6 у.е. (надо сравнить свободные члены этих уравнений: 393 – 314,4 = 78,6).
Приведем уравнение множественной регрессии, где фиктивной переменной является переменная х2(см рис. 47).
Рис. 47. Уравнение регрессии с фиктивной переменной
Итак, уравнение регрессии имеет вид
= 389,7 – 8,81*х1–72.8*х2, (R2= 89,24%).
Как видим, оба коэффициента уравнения регрессии значимы и точность уравнения существенно выше, чем у парной регрессии. Свободный член этого уравнения указывает базу для сравнения прочих ценных бумаг с облигациями (платежи в среднем для прочих ценных бумаг ниже на 72,8 ден. ед.). Коэффициент Дарбина – Уотсона, равный 2,17, указывает на отсутствие ошибки в спецификации данного уравнения.
Пример. Несколько фиктивных переменных
Приведем далее в качестве примера использования фиктивных переменных результаты анализа рынка двухкомнатных квартир на основе уравнения множественной регрессии при следующем наборе переменных:
PRICE– цена;
TOTSP– общая площадь;
LIVSP– жилая площадь;
KITSP– площадь кухни;
DIST– расстояние до центра города;
WALKравна 1, если до станции метро можно дойти пешком, и равна 0, если надо воспользоваться общественным транспортом;
BRICKравна 1, если дом кирпичный и равна 0, если панельный;
FLOORравна 1, если квартира не на первом и не на последнем этаже, и равна 0 в противном случае;
TELравна 1, если в квартире есть телефон, и равна 0, если телефона нет;
BALравна 1, если есть балкон и равна 0, если нет.
Расчеты проведены с помощью ППП STATISTICA(см. рис, 48). Наличие-коэффициентов позволяет упорядочить переменные по степени их влияния на зависимую переменную. Проведем краткий анализ результатов расчетов.
На основе статистики Фишера делаем вывод о значимости уравнения регрессии (р-величина < 0,05). В данном примере обработана информация о 6 286 квартирах (n–m–1 = 6 276, аm= 9). Все коэффициенты уравнения регрессии (кроме коэффициента при переменнойBAL) значимы (р-величины для них < 0,05). Наличие или отсутствие балкона в этом примере на цене квартиры существенно не сказывается.
Рис. 48. Отчет о рынке квартир на основе ППП STATISTICA
Коэффициент множественной детерминации равен 52 %, следовательно, включенные в регрессию переменные обусловливают изменение цены на 52 %, а остальные 48 % изменения цены квартиры зависят от неучтенных факторов. В том числе и от случайных колебаний цены.
Каждый из коэффициентов при переменной показывает, на сколько изменится цена квартиры (при прочих равных условиях), если данная переменная изменится на единицу. Так, например, при изменении общей площади на 1 кв. м цена квартиры в среднем изменится на 0,791 у. е. При удалении квартиры от центра города на 1 км цена квартиры в среднем уменьшится на 0, 596 у. е. и т. д. Фиктивные переменные (последние пять переменных в приведенном их перечне) показывают на сколько в среднем изменится цена квартиры, если перейти с одного уровня этой переменной на другой. Так, например, если дом кирпичный, то квартира в нем в среднем на 3,104 у. е. дороже, а наличие телефона в квартире поднимает ее цену в среднем на 1,493 у. е. и т. п.
На основе -коэффициентов можно сделать следующие выводы. Наибольшим-коэффициентом, равным 0,514 является коэффициент при переменной «общая площадь», следовательно в первую очередь цена квартиры формируется под влиянием ее общей площади. Следующий фактор по степени влияния на изменение цены квартиры является расстояние до центра города, затем материал, из которого сделан дом, затем площадь кухни и т. п.
Задания для самостоятельной работы
Задание 1
Имеется следующая информация: у– оценка производительности труда в баллах от 0 до 10 их1– тест на способность для 8 мужчин и 7 женщин, которые закодированы фиктивной переменнойх2(0 – мужчина, 1 – женщина).
Вычислить среднюю оценку производительности труда для мужчин и женщин и проверить, значимо ли они различаются. Подтвердить или опровергнуть полученные выводы, используя уравнение регрессии с фиктивной переменной, моделируя зависимость производительность труда в зависимости от теста на способность и пола работников фирмы.
Задание 2
Проанализировать с помощью фиктивных переменных, существенно ли различается зарплата работников фирмы (у) в зависимости от стажа работы (х1) и уровня образования, если фиктивные переменныех2их3принимают значения:х2= 1, если образование среднее специальное и 0 – в других случаях,х3= 1, если образование среднее и 0 – в других случаях. Что является базой для сравнения зарплат в зависимости от образования в этом случае, если образование имеет три уровня – среднее, среднее специальное и высшее?