- •Модуль 4. Множественная линейная регрессия
- •4.1.1. Общая линейная модель множественной регрессии
- •4.1.2. Расчет вектора коэффициентов множественной линейной регрессии
- •Лабораторная работа №4.1. Построение множественной регрессии в Excel 97
- •Выполнение.
- •4.2. Линейная регрессия: статистический анализ модели
- •4.2.1. Проверка общего качества уравнения регрессии. Коэффициент детерминации r2
- •4.2.2. Проверка значимости коэффициента детерминации с использованием статистики Фишера
- •Пример 4.1
- •Конец примера
- •Лабораторная работа №4.2.1. Проверка значимости коэффициента детерминации r2
- •Выполнение
- •Лабораторная работа № 4.2.2. Анализ статистической значимости коэффициентов линейной регрессии
- •4. Вопросы
4.2.2. Проверка значимости коэффициента детерминации с использованием статистики Фишера
Для определения статистической значимости коэффициента детерминации R2проверяется нулевая гипотеза дляF-статистики, рассчитываемой по формуле:
Соответственно, для парной регрессии
Смысл проверяемой гипотезы заключается в том, что все коэффициенты линейной регрессии, за исключением свободного члена, равны нулю. Если они действительно равны нулю для генеральной совокупности, то уравнение регрессии должно иметь вид,а коэффициент детерминацииR2иF-статистика Фишера также равны нулю. При этом их оценки для случайной выборки, конечно, отличаются от нуля, но чем больше такое отличие, тем менее оно вероятно. Логика проверки нулевой гипотезы заключается в том, что если произошло событие, которое было бы слишком маловероятным в том случае, если данная гипотеза действительно была бы верна, то эта гипотеза отвергается.
Величина F, если предположить, что выполнены предпосылки относительно отклоненийеi, имеет распределение Фишера с(т; п-т-1)степенями свободы, гдет -число объясняющих переменных,п -число наблюдений.
Итак, показатели F и R2равны или не равны нулю одновременно, поэтомуF =0 равнозначно тому, что линия регрессииявляется наилучшей по МНК и, следовательно, величинаустатистически независима отх.Поэтому проверяется нулевая гипотеза для показателяF, который имеет хорошо известное, табулированное распределение - распределение Фишера. Для проверки этой гипотезы при заданном уровне значимости по таблицам находится критическое значениеFкрит, и нулевая гипотеза отвергается, еслиF>Fкрит.
Пример 4.1
Пусть, например, при оценке парной регрессии по 15 наблюдениям R2= 0,7. В этом случаеF= 0,7 • 13/0,3. По таблицам для распределения Фишера с (1; 13) степенями свободы найдем, что при 5%-ном уровне значимости (доверительная вероятность 95%) критическое значениеFравно 4,67, при 1%-ном - 9,07. ПосколькуF=30,З>Fкрит., нулевая гипотеза в обоих случаях отвергается. Если в той же ситуацииR2= 0,5, тоF=13, и предположение о незначимости связи отвергается и здесь.
Конец примера
Таким образом, для того, чтобы отвергнуть гипотезу о равенстве нулю одновременно всех коэффициентов линейной регрессии, коэффициент детерминации не должен быть очень близким к единице; его критическое значение для данного числа степеней свободы уменьшается при росте числа наблюдений и может стать сколь угодно малым. В то же время величина коэффициента R2(точнее, рассчитанной по немуF-статистики, поскольку последняя учитывает число наблюдений и число объясняющих переменных) может служить отражением общего качества регрессионной модели.
Отметим, что в случае парной регрессии проверка нулевой гипотезы для t- статистики коэффициента регрессии равносильна проверке нулевой гипотезы дляF-статистики (и, соответственно, показателяR2).В этом случаеF-статистика равна квадратуt-статистики. В случае парной регрессии статистическая значимость величинR2иt-статистики коэффициента регрессии определяется коррелированностью переменныххиу.Самостоятельную важность показательR2приобретает в случае множественной линейной регрессии.
Лабораторная работа №4.2.1. Проверка значимости коэффициента детерминации r2
В предыдущей задаче коэффициент детерминации R2равен 0,996544 (см. ячейкуG6 в результатах функции ЛИНЕЙН), что указывает на сильную зависимость между независимыми переменными и ценой. Определить, является ли этот результат (с таким высоким значениеR2) случайным, используя F-статистику.