Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Глава2.doc
Скачиваний:
8
Добавлен:
20.04.2019
Размер:
850.94 Кб
Скачать

2.4. Показатели качества уравнения множественной регрессии

Как и в случае парной регрессии, наиболее общими показателями качества множественной регрессии являются остаточная сумма квадратов:

,

а также стандартная ошибка регрессии se, вычисляемая по формуле:

,

где n - количество наблюдений, m - число объясняющих переменных. Если исходная регрессия не содержит свободного члена, то формула для расчета стандартной ошибки немного изменяется:

.

Обе характеристики Qe и se зависят от единиц, в которых измеряются значения результирующей переменной у, и потому не являются универсальными. Основным показателем оценки качества регрессии, имеющим универсальный характер, является так называемый коэффициент детерминации R2. Он рассчитывается по формуле:

, (2.9)

где и . Величина Qy характеризует общий разброс значений результирующей переменной вокруг ее среднего значения, а остаточная сумма квадратов Qe - случайный разброс. Поэтому, согласно (2.9), коэффициент детерминации определяет, какая доля разброса результирующей переменной обусловлена данной регрессией и соответственно влиянием объясняющих переменных x1, x2,…, xm.

Значение коэффициента детерминации удовлетворяет ограничению: . На практике при значительном числе наблюдений, чем ближе значение R2 к единице, тем, как правило, качественнее построенное уравнение регрессии. Для случая парной линейной регрессии коэффициент детерминации равен квадрату коэффициента корреляции, а для случая множественной регрессии – квадрату множественного коэффициента корреляции.

Иногда при расчете коэффициента детерминации делается поправка величин Qe и Qy на соответствующие им числа степеней свободы. В результате получают скорректированный (исправленный) коэффициент детерминации:

. (2.10)

Если число наблюдений n и число объясняющих переменных m не слишком отличаются друг от друга, то близость значения R2 к единице еще не свидетельствует о высоком качестве регрессии и соответственно о силе влияния переменных x1, x2,…, xm на переменную у. Поэтому содержательная интерпретация R2, как доли разброса результирующей переменной, обусловленной данной регрессией, не имеет смысла.

Статистическая значимость регрессии в целом может быть оценена с помощью F-критерия Фишера. При этом формально проверяется нулевая гипотеза при альтернативной гипотезе . Последовательно выполняются следующие операции:

  • рассчитывается наблюдаемое значение F-статистики по формуле

(2.11)

( то же самое значение получается, если построение регрессионной модели ведется с использованием функции ЛИНЕЙН в ППП Excel);

  • определяется табличное значение , представляющее собой критическую точку распределения Фишера при заданном уровне значимости  и степенях свободы k1=m, k2=nm1 (табл.П.1 приложения);

  • сравниваются наблюдаемое и табличное значения F-статистики: если , то нулевая гипотеза о равенстве нулю коэффициента детерминации отвергается, и регрессия является статистически значимой в целом при заданном уровне значимости. Иначе говоря, совокупное влияние объясняющих переменных x1, x2,…, xm на у в рамках рассматриваемой модели существенно.

Заметим, что в случае рассмотрения нескольких статистически значимых регрессионных моделей на одном и том же массиве наблюдений величина F-статистики может выступать сравнительным показателем их качества, в некотором смысле более объективным, чем R2, так как учитывает число параметров в моделях. Вообще при увеличении числа объясняющих факторов в модели значение коэффициента детерминации непрерывно растет, достигая при m=n1 единицы. Значение же F-статистики растет лишь до некоторого предела, а затем начинает постепенно уменьшаться.

Наконец, еще одним показателем общего качества построенной модели является статистическая значимость коэффициентов. Оценка значимости проводится по той же схеме, что и для случая парной регрессии (параграф 1.4):

  • вычисление стандартных ошибок (среднеквадратических отклонений) параметров (i=0,1,…,m);

  • нахождение соответствующих значений t-статистики:

(2.12)

  • сравнение полученных значений по модулю с табличным значением tтабл=t(, nm1). В случае выполнения неравенства нулевая гипотеза о равенстве нулю параметра отвергается, и этот параметр является статистически значимым.

Вычисление стандартных ошибок параметров может производиться разными способами. При использовании функции ЛИНЕЙН их значения автоматически записываются во второй строке итоговой таблицы. Если построение регрессионной модели ведется матричным способом, то значения стандартных ошибок параметров могут быть найдены по формулам:

(i=0,1,…,m),

где bii – диагональные элементы матрицы , считая ее первую строку и первый столбец нулевыми.

Для коэффициентов множественной регрессии при заданном уровне значимости  также могут быть рассчитаны доверительные интервалы, имеющие такой же вид, как и доверительные интервалы коэффициентов парной регрессии:

, i=0,1,…,m.

Принадлежность нуля некоторому доверительному интервалу влечет статистическую незначимость соответствующего коэффициента.

Наличие в построенной регрессии незначимых коэффициентов указывает на неудовлетворительное качество модели. Однако если незначимость свободного члена достаточно часто допускается, то незначимость коэффициентов перед переменными является более серьезным недостатком модели. Поэтому в этом случае модель обычно корректируется исключением объясняющей переменной, которой соответствует «самый незначимый» параметр, для которого величина самая маленькая. После чего строится новая модель с сокращенным набором объясняющих переменных.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]