- •Модуль 5. Развитие регрессионной модели
- •5.1. Мультиколлинеарность
- •5.2. Проверка значимости исключенных и добавленных переменных
- •5.3. Линейные регрессионные модели с переменной структурой (фиктивные переменные)
- •Пример 5.1
- •Конец примера
- •5.4. Проверка гипотезы о совпадении уравнений регрессии для отдельных групп наблюдений (критерий Чоу)
- •Лабораторная работа № 5.4. Фиктивные переменные
- •Выполнение
- •5.5. Нелинейная регрессия
- •Пример 5.2.
- •5.5.1. Подбор линеаризующего преобразования (подход Бокса – Кокса)
- •5. Вопросы
5.5. Нелинейная регрессия
На практике часто встречается ситуация, когда априорно известен нелинейный характер зависимости между объясняемыми и объясняющими переменными. В этом случае функция fв уравненииy=f(a,x)нелинейна (а– вектор параметров функции, которые нам нужно оценить). Например, вид зависимости между ценой и количеством товара в той же модели спроса и предложения: она не всегда предполагается линейной, как в нашем примере.Нелинейную функциюможно преобразовать в линейную(например, логарифмированием). Если нелинейная зависимость может быть записана в виде суммы функций от неизвестныххi(например,у = а + bх1 + сх12 + hх2),то можно построить новые ряды данных (для примера в скобках - ряд данныхх12)и оценить с ними линейную регрессию. Наиболее распространенные виды функций и преобразований данных, необходимые для построения нужного набора новых переменных, обычно заложены в прикладные регрессионные пакеты. Продемонстрируем преобразование нелинейной функции в линейную на примере функции Кобба-Дугласа.
Пример 5.2.
Пусть требуется оценить параметры производственной функции Кобба-Дугласа
Y=AK L .
Для линеаризации прологарифмируем обе части:
lnY=lnA+ lnK+ lnL.
Полученная формула линейна относительно логарифмов выпуска Y,капиталаК и трудаL,и она может быть оценена как множественная линейная регрессия.
Если нужно оценить производственную функцию Кобба-Дугласа с +=1, то делается следующее преобразование:
Далее оценивается парная линейная регрессия логарифма производительности труда Y/Lот логарифма капиталовооруженностиK/L.
Нужно иметь в виду, что если с формулой связи делаются какие-то преобразования, то меняются свойства ошибок i. Если для них предполагалось нормальное распределение с нулевым математическим ожиданием, то после, например, логарифмирования правой части оно уже таким не будет. Это серьезная проблема, изучаемая эконометрикой. Мы на ней останавливаться не будем, просто отметив ее наличие. Для простоты будем считать, что (там, где возможно) отклоненияiобладают нужными свойствами именно у итоговой, линеаризованной зависимости.
Однако не все функции поддаются такой непосредственной линеаризации. Любую дифференцируемую нужное число раз функцию можно разложить в функциональный ряди затем оценить регрессию объясняемой переменной с членами этого ряда.
Более сложные модели производственной функции (например, функцию CES
можно оценить путем разложения в ряд. Как известно, любая дифференцируемая функция может быть разложена в ряд по степеням независимой переменнойх в окрестности любой точки. Затем оставляются несколько наиболее важных членов ряда (остальные отбрасываются), и по ним оценивается линейная регрессия.
Тем не менее, такое разложение всегда осуществляется в окрестности определенной точки, и лишь в этой окрестности достаточно точно аппроксимирует оцениваемую функцию. В то же время оценить зависимость требуется обычно на более или менее значительном интервале, а не только в окрестности некоторой точки. При линеаризации функции или разложении её в ряд с целью оценки регрессии возникают и другие проблемы: искажение отклонений и нарушение их первоначальных свойств, статистическая зависимость членов ряда между собой. Например, если оценивается формула
полученная путем линеаризации или разложения в ряд, то независимые переменные хих2связаны между собой даже не статистически, но функционально. Если исходная ошибказдесь связана с переменнойх, то добавлениех2приводит к появлению (с соответствующими коэффициентами) квадрата этой переменной и её удвоенного произведения сх, что искажает исходные предпосылки модели. Поэтому во многих случаях актуальна непосредственнаяоценка нелинейной формулы регрессии. Для этого можно воспользоватьсянелинейным МНК. Идея МНК основана на том, чтобы минимизировать сумму квадратов отклонений расчетных значений от эмпирических, т.е. нужно оценить параметры а функцииf(а,х)таким образом, чтобы ошибкиеi=уi-f(а,х),точнее - их квадраты, по совокупности были минимальными. Для этого нужно решить задачу минимизации
Для решения этой задачи существует два пути. Во-первых, может быть осуществлена непосредственная минимизация функции F с помощью методов нелинейной оптимизации, позволяющих находить экстремумы выпуклых линий. Это, например, метод наискорейшего спуска, при использовании которого в некоторой исходной точке определяется антиградиент (направление наиболее быстрого убывания) функцииF.Далее находится минимумF при движении в данном направлении, и в точке этого минимума снова определяется градиент. Процедура повторяется до тех пор, пока разница значенийFна двух последовательных шагах не окажется меньше заданной малой величины. Другой путь состоит в решении системы нелинейных уравнений, которая получается из необходимых условий экстремума функцииF.Эти условия - равенство нулю частных производных функцииF по каждому из параметроваj,т.е
, гдеj=1, …, т.Получается система уравнений
нелинейность которой обусловлена нелинейностью функции fотносительно параметровaj. Эта система уравнений может быть решена итерационными методами (когда последовательно находятся векторы параметров, все в меньшей степени нарушающие уравнения системы). Однако в общем случае решение такой системы не является более простым способом нахождения вектораа, чем непосредственная оптимизация методом наискорейшего спуска.
Существуют методы оценивания нелинейной регрессии, сочетающие непосредственную оптимизацию, использующую нахождение градиента, с разложением в функциональный ряд (ряд Тейлора) для последующей оценки линейной регрессии. Наиболее известен из них метод Марквардта, сочетающий в себе достоинства каждого из двух используемых методов.
При построении нелинейных уравнений более остро, чем в линейном случае, стоит проблема правильной оценки формы зависимости между переменными. Неточности при выборе формы оцениваемой функции существенно сказываются на качестве отдельных параметров уравнений регрессии и, соответственно, на адекватности всей модели в целом.