- •Тема 5. Регрессионный анализ § 5.1. Простая линейная регрессионная модель и оценивание по методу наименьших квадратов
- •5.2. Проверка гипотез и доверительные интервалы
- •§ 5.3. Множественная линейная регрессия и ее исследование
- •§ 5.4. Проверка адекватности регрессионной модели
- •§ 5.5. Анализ остатков
- •Р ис. 5.3. Примеры графиков остатков. А – адекватная модель;
- •§ 5.6. Интерпретация оценок параметров линейного уравнения множественной регрессии
- •§ 5.7. Понятие о нелинейной регрессии
- •§ 5.8. Вопросы для самопроверки
- •§ 5.9. Задачи
- •Тема 6. Однофакторный дисперсионный анализ § 6.1. Постановка задачи
- •Представление данных для однофакторного дисперсионного анализа
- •§ 6.2. Проверка гипотез
- •§ 6.2. Вопросы для самопроверки
- •§ 6.3. Задачи
5.2. Проверка гипотез и доверительные интервалы
Чтобы сделать статистические выводы об а0, а1 и , сначала необходимо оценить дисперсию 2, а затем описать распределение ошибки случайной переменной . Согласно теории общей линейной модели, обычная несмещенная оценка для 2 определяется через дисперсию оценки
.
Положительный корень из этой величины называют стандартной ошибкой оценки. Если ошибки предполагаются нормальными, т.е. распределенными по закону , и независимыми, то можно проверить гипотезы о параметрах и построить для них доверительные интервалы. Для проверки гипотезы , где – некоторая константа, например , используем статистику
, где .
Для проверки гипотезы , где – некоторая константа, используем статистику
, где .
Если гипотеза Н0 верна, то Т1 и Т2 имеют распределение Стьюдента с n – 2 степенями свободы.
Если гипотеза Н0 принимается для а0, то прямая проходит через начало координат.
Если гипотеза Н0 принимается для а1, то этот параметр незначим, т.е. отсутствует влияние х на зависимую переменную и математической модели зависимости Y от Х не существует.
Если гипотеза Н0 отвергается, то параметр а1 интерпретируется следующим образом: если независимая переменная Х изменится на одну единицу своего измерения, то (при прочих равных условиях) зависимая переменная изменится в среднем на единиц своего измерения (смотри далее эластичность).
Для проверки гипотезы о том, что простая линейная регрессия Y по Х отсутствует, т.е. гипотез мы воспользуемся F-отношением из таблицы дисперсионного анализа (табл. 5.1).
Таблица 5.1. Анализ дисперсий.
(Формулы для вычисления SSD,
SSR, SST, nD, nR приведены в § 5.4.)
Источник вариации |
Суммы квадратов |
Степени свободы |
Средние квадраты |
F-отношение (Тнабл) |
Уровень значимости |
Модель |
SSD |
nD |
MSD = SSD / nD |
F = MSD/ MSR |
набл. |
Ошибка |
SSR |
nR |
MSR = SSR/ nR |
|
|
Итого (скорр.) |
SST |
nT = n – 1 |
|
|
|
Принятие Н0 означает, что модель в целом не адекватна, так как фактор Х, включенный в модель, не оказывает влияния на зависимую переменную Y и может быть исключен из модели. Принятие Н1 означает, что Х оказывает значимое влияние на зависимую переменную Y.
Доверительные интервалы для а0 и а1 с доверительной вероятностью вычисляются по формулам:
где – квантиль уровня распределения Стьюдента с k = n – 2 степенями свободы, – среднеквадратические (стандартные) ошибки оценок а0 и а1 соответственно.
Доверительные интервалы для прямой регрессии.
Каждая заданная прямая регрессии при изменении смещается параллельно самой себе вверх или вниз. Если изменяется а1, то прямая поворачивается вокруг точки .
Определим две стандартные ошибки:
1. для среднего значения в точке х:
,
2. для индивидуального значения в точке х:
.
Тогда доверительные интервалы для
1) всей прямой регрессии:
;
где – квантиль уровня F-распределения с n1 = 2 и n2 = n – 2 степенями свободы;
2) среднего значения наблюдения в точке х:
;
3) индивидуального наблюдения в точке х:
.
Эти интервалы справедливы только для области измерений (наблюдений). При удалении от точки статистическая ненадежность оценок возрастает. Наибольший доверительный интервал – для (1), наименьший – для (2).
Пример. В теме «Корреляционный анализ» рассматривается зависимость веса женщин (Y) от роста (Х). Выборочный коэффициент корреляции rXY = 0,9, следовательно, существует линейная зависимость между ростом женщины и ее весом:
.
Определим оценки неизвестных параметров а0 и а1, а также дисперсию отклонений . Обратившись к методу наименьших квадратов, получим систему уравнений:
решив которую, получим: . Запишем уравнение простой регрессии:
.
Проверим на уровне значимости = 0, 05 гипотезу против альтернативы . Вычислим , где .
Находим по таблице t-распределения значение .
Так как , то гипотеза Н0 отвергается. Интерпретация : если рост женщины увеличится на 1 см, то при прочих равных условиях ее вес в среднем увеличится на 0,8113 кг.