- •П.Я. Бушин
- •Введение
- •Глава 1. Парная линейная регрессия и корреляция
- •1.1. Обычный метод наименьших квадратов (мнк) и его предпосылки
- •1.2. Оценки точности уравнения регрессии и его параметров
- •1.2.1. Стандартная ошибка оценки по регрессии
- •1.2.3. Интервальные оценки параметров уравнения регрессии
- •1.2.4. Проверка значимости параметров уравнения регрессии
- •1.2.7. Коэффициент ранговой корреляции Спирмена
- •1.3. Спецификация уравнения регрессии
- •0 1,22 1,42 2,58 2,78 4
- •1.4. Нелинейная корреляция и регрессия
- •1.4.2. Индекс корреляции
- •Глава 2. Множественная корреляция и регрессия
- •2.1. Множественный корреляционный анализ
- •2.1.1. Анализ матрицы парных коэффициентов корреляции
- •2.1.2. Частная и множественная корреляция
- •2.2. Линейная модель множественной регрессии
- •2.2.1. Уравнение множественной регрессии в натуральном масштабе
- •2.2.2.Стандартизованное уравнение множественной регрессии
- •2.2.3. Оценки точности уравнения множественной регрессии
- •2.2.4. Анализ остатков уравнения множественной регрессии на втокорреляцию
- •2.2.5. Пошаговый выбор переменных
- •0 0,9 1,83 2,17 3,1 4
- •2.3. Особые случаи использования мнк во множественной регрессии
- •2.3.1. Оценка параметров уравнения множественной регрессии в условиях мультиколлинеарности (пошаговый регрессионный анализ)
- •2.3.2. Оценка параметров уравнения множественной регрессии с автокоррелированными остатками
- •2.3.3. Оценка уравнения множественной регрессии с гетероскедастичными остатками (обобщенный мнк)
- •2.3.4. Регрессионные модели с переменной структурой (фиктивные переменные)
- •Глава 3. Анализ временных рядов
- •3.1. Характеристики временных рядов
- •3.2. Показатели точности прогноза
- •3.3. Анализ автокорреляций
- •3.4. Модели стационарных временных рядов
- •3.5. Модели нестационарных временных рядов
- •3.5.1. Прогноз по тренду
- •3.5.2. Прогнозирование на основе сезонной компоненты (сезонная декомпозиция временного ряда)
- •3.5.3. Прогноз по экспоненциально взвешенным скользящим средним (адаптивные методы прогнозирования)
- •Поквартальные данные продажи учебников
- •Расчет прогноза с учетом сезонной компоненты
- •Глава 4. Система одновременных эконометрических уравнений
- •4.1. Общие понятия о системах одновременных уравнений
- •4.2. Косвенный метод наименьших квадратов
- •4.3. Проблемы идентифицируемости
- •Библиографический список
- •Оглавление
- •Глава 1. Парная линейная регрессия и корреляция………………………………………4
- •Глава 2. Множественная корреляция и регрессия………………………………………..23
- •Глава 3. Анализ временных рядов………………………………………………………….58
- •Пример. Моделирование сезонной компоненты на основе
- •Учебное издание Павел Яковлевич Бушин эконометрика
1.2.7. Коэффициент ранговой корреляции Спирмена
Как известно, вычисление коэффициента линейной корреляции Пирсона осуществляется в предположении действия нормального закона распределения. При этом используются точные количественные значения переменных. В случае, если закон распределения неизвестен или известно, что он отличен от нормального (в том числе и для нелинейных зависимостей), а также для данных, измеренных в ранговой шкале, для определения тесноты связи между изучаемыми переменными рекомендуется использовать ранговую корреляцию. Теснота ранговой корреляции измеряется с помощью коэффициента ранговой корреляции Спирмена (rs).
Вычисляется такой коэффициент из соотношения
rs= 1 – ,
где di=xi–yi, аxiиyi– ранги наблюдений.
Коэффициент ранговой корреляции Спирмена имеет те же свойства, что и коэффициент парной корреляции Пирсона, но он устойчив по отношению к неравномерности информации. С его помощью можно изучать взаимосвязь не только между значениями переменных, но и между их рангами. Например, зависимость между сортностью продукции, ее сроком службы и производственными затратами. Для этого элементы изучаемой совокупности располагаются в определенном порядке и каждому элементу упорядоченного ряда присваивают ранг или номер и затем изучается теснота связи между рангами.
Как и коэффициент парной корреляции Пирсона, коэффициент ранговой корреляции rs1. Еслиrs= 1, то это означает, что каждый элемент последовательности рангов занимает одно и то же место в обоих рядах и мы имеем полную положительную корреляцию рангов. В случае, когдаrs= –1, элементы двух последовательностей расположены в обратном порядке и между рангами наблюдается полная рассогласованность. Еслиrs= 0, имеем полное отсутствие корреляции между рангами.
Значимость коэффициента ранговой корреляции Спирмена определяется по статистике z=rs/s =rs. Расчетное значение статистикиzсравнивается с табличнымz/2 (при фиксированном уровне значимости), и, если, например,zz/2, делаем вывод о том, что коэффициент корреляции не равен нулю. При компьютерных расчетах с помощью статистических ППП, как и в случае коэффициента корреляции Пирсона, для определения значимостиrsдостаточно воспользоваться р-величиной.
Коэффициент ранговой корреляции используется также в случаях, когда изучаются взаимосвязи между явлениями, которые не поддаются количественной оценке. К подобным исследованиям, например, относится изучение взаимосвязей между такими переменными, как интегральный показатель эффективности функционирования социально-экономической системы (специалиста, предприятия, научно-производственного объединения и т. п.), качество (мера оптимальности) структуры потребительского бюджета семьи, степень прогрессивности предполагаемого проекта решения социально-экономической, технической или другой проблемы и т.п. В этих случаях каждому объекту ставится в соответствие некоторая условная числовая метка, обозначающая место этого объекта в ряду из всех анализируемых объектов, упорядоченных по убыванию степени проявления в них изучаемого свойства. Такие переменные называются порядковыми или ранговыми и используются для ранжирования (сравнительной оценки) рассматриваемых объектов.
Кроме того, порядковые переменные используются в социологических исследованиях при составлении анкет и их обработке.
В заключение отметим, что в отличие от коэффициента корреляции Пирсона ранговый коэффициент корреляции Спирмена не чувствителен к асимметрии и выбросам.
Пример.Анализ функции потребления
Рассмотрим условный пример, в котором необходимо проанализировать зависимость расходов от доходов, используя простую регрессию и корреляцию, а также спрогнозировать расходы семей, чьи доходы равны соответственно: 4, 6, 8 и 9,5.
Пусть имеются данные о доходах (х) и расходах (у) у 21 семьи за определенный промежуток времени:
Таблица исходных данных для примера Таблица 1.3
х |
4,2 |
2,9 |
7,1 |
4,9 |
6,4 |
2,1 |
3,5 |
7,5 |
5,0 |
2,4 |
у |
4,3 |
3,6 |
6,0 |
4,6 |
7,1 |
2,3 |
3,9 |
9,1 |
5,1 |
3,6 |
7,9 |
4,9 |
2,5 |
6,1 |
3,2 |
9,2 |
4,2 |
5,5 |
3,6 |
5,2 |
8,5 |
8,2 |
4,7 |
4,0 |
6,0 |
4,2 |
7,5 |
5,2 |
5,6 |
4,4 |
5,0 |
10,5 |
Просчитаем уравнение парной линейной регрессии, используя ППП StatgraphicsPlusсо всеми показателями точности уравнения регрессии, приняв за зависимую переменную расходы семьи, а за независимую – доходы. Отчет о регрессии приведен ниже (см. рис.1).
Рис. 1. Отчет о регрессии на основе ППП StatgraphicsPlus5.1
Итак, уравнение регрессии имеет вид: = 1,19 + 0,85х.
Здесь – Intercept(пересечение) = 1,19,Slope(наклон) = 0,85 (эти значения взяты из столбцаEstimate– оценка).
При этом статистика Фишера F= 87 (см. на рис. 1 таблицу дисперсионного анализа (AnalysisofVariance)), а расчетный уровень ее значимости равен нулю (p-Value= 0,0). Это означает, что уравнение регрессии значимо.
Как уже отмечалось, проверка значимости коэффициента парной регрессии аналогична проверке значимости уравнения регрессии в целом и статистика Стьюдента для этой проверки равна корню квадратному из статистики Фишера (или t2=F), что легко проверить (9,332= 87,05) (небольшое расхождение за счет округления).
Итак, коэффициент регрессии значимо отличен от нуля. Известно, что подобного рода зависимость расходов от доходов в эконометрике называется функцией потребления. Коэффициент регрессии в этом случае показывает, на сколько изменится расход при дополнительном увеличении дохода на 1 тыс. рублей, и характеризует склонность к потреблению. В нашем примере из каждой тысячи рублей дохода на потребление расходуется 850 руб., а 150 руб. откладывается на будущее (инвестируется).
Показатель, характеризующий склонность к потреблению, используется для расчета мультипликатора, который в нашем случае равен 1/(1–b) = 6,67. Это означает, что при дополнительном инвестировании 1 тыс. руб. на отдаленную перспективу, получим дополнительный доход в размере 6,67 тыс. руб. Явно завышенный результат здесь получился потому, что данный показатель (склонность к потреблению) эффективен при подобных расчетах в случае его малости.
Свободный член уравнения регрессии положителен (равен 1,19). Это означает, что в нашем примере расходы изменяются более интенсивно, чем доходы. Это подтверждается и расчетами коэффициентов вариации для этих показателей. Для расходов и доходов они соответственно равны 41 % и 35,5 % (рассчитать самостоятельно, если известно, что =5,01,=5,51,Sx=2,1,Sy=1,95).
Коэффициент регрессии используется также при расчете коэффициента средней эластичности, который равен э = (в*/), и показывает, на сколько процентов в среднем изменится значение зависимой переменной при изменении независимой переменной на 1 %. В нашем случае э = (0,85*5,01/5,51) = 0,77. Это означает, что при изменении доходов на 1 % расходы изменятся в среднем на 0,77 %.
Теснота линейной корреляционной связи между изучаемыми показателями оценивается коэффициентом корреляции, который равен 0,906, и в соответствии со шкалой Чеддока можно сказать, что теснота этой связи весьма высокая.
Рассчитайте статистику Стьюдента для проверки гипотезы о том, что коэффициент корреляции равен нулю, и убедитесь, что в случае парной регрессии она совпадет со статистикой Стьюдента для проверки гипотезы о равенстве нулю коэффициента регрессии, а ее квадрат равен значению критерия Фишера для проверки гипотезы о значимости уравнения регрессии в целом.
Коэффициент детерминации (R-squared) равен 82,1 %, следовательно, в нашем примере изменение расходов на 82,1 % зависит от изменения доходов, а остальные 17,9 % изменения доходов зависят от неучтенных факторов, в том числе и от случайных.
Стандартная ошибка оценки по регрессии (StandardErrorofEst.) равна 0,85, и это означает, что, оценивая расходы по известной величине доходов по данному уравнению регрессии, мы в среднем ошибаемся на эту величину.
Приведем графический отчет о полученной регрессии (рис. 2 и рис. 3).
Рис. 2. График подобранной линии регрессии (ППП StatgraphicsPlus)
Рис. 3 График остатков подобранной линии регрессии (ППП StatgraphicsPlus)
Расположение линии регрессии среди точек подтверждает правильность выбора линейной зависимости между изучаемыми показателями. Штриховые линии вокруг линии регрессии показывают доверительную область линии регрессии и прогнозных значений. Приведем прогнозные расчеты расходов семей для указанных в условии примера доходов. Расчеты проведем с помощью процедуры Forecasts, имеющейся среди табличных опций простой регрессии в ПППStatgraphics(рис. 4):
Рис. 4 Окно отчета о прогнозе по уравнению регрессии
Кроме точечных прогнозов здесь указаны и интервальные прогнозы для расчетных и прогнозных значений расходов. Если на рис. 2 провести вертикальные линии через абсциссы с указанными значениями доходов, то каждая из таких линий пересечет график в 5 точках, которые и отражены в отчете на рис. 4. Так, например, если доходы семьи будут равны 6 у. е., то в соответствии с найденным уравнением расходы такой семьи будут равны 6,5755 (точечный прогноз – это точка пересечения линии регрессии с прямой х = 6), а интервальных прогноза два: (5,95;7,28) для расчетного значения расходов и (4,81;8,34) для прогнозных расходов. На рис. 2 эти интервалы получатся при пересечении линии х = 6 с двумя доверительными областями линии регрессии: для самой линии и для прогнозных значений зависимой переменной.