- •Проверка гипотезы о параметре pбиноминального распределения
- •Проверка гипотезы о независимости двух величин
- •Ранговая корреляция
- •Элементы регрессионного анализа
- •Проверка адекватности линейной регрессионной модели
- •Множественная линейная регрессия
- •Линейная регрессионная модель общего вида
- •Постановка задачи и оптимизация модели с помощью процедуры поиска решения
- •Факторный анализ
Линейная регрессионная модель общего вида
(криволинейная регрессия)
В общем случае, если регрессия y на x отличается от линейной, рассматривают линейную по параметрам регрессионную модель вида
(37)
где a1(x), a2(x),…, ak-1(x) – это известные функции, а параметры 0, 1, …,m – неизвестные параметры.
Пусть (xi, yi) i =– результаты наблюдений переменныхx и y.С учетом ошибок измерений, результаты наблюдений y являются реализациями случайных величин.
, i =
i – случайные ошибки наблюдений, независимые случайные величины,
распределенные нормально с параметрами
, . (38)
Для нахождения оценок параметров регрессии по результатам набдюдений используется метод наименьших квадратов.
Введем матричные обозначения:
- вектор набдюдений, - вектор параметров,
- регрессионная матрица размера (.
Система уравнений по методу наименьших квадратов примет вид:
, (39)
- квадратная матрица к-го порядка.
При условии, что - невырожденная матрица, решение системы можно записать в виде
. (40)
Как и в случае линейной регрессии, качество аппроксимации результатов наблюдений ,i=1,2,…,n, регрессионной моделью (37) определяется остаточной дисперсией
, (41)
где Qe – остаточная сумма квадратов, равная
На практике остаточную сумму квадратов вычисляют из тождества
,
- вычисляется по формуле
. (42)
Если модель (37) адекватна результатам наблюдений, то остаточная дисперсия является несмещенной оценкой дисперсии ошибок наблюдений , т.е.
М() =, причем статистикаимеет распределениесn – k степенями свободы. В этом случае можно проверить гипотезы о параметрах модели и найти доверительные интервалы для этих параметров.
Для проверки гипотезы Н0: используют статистику
z = (43)
Если гипотеза Н0 верна (в этом случае говорят, что модель (36) статистически незначима), то статистика (42) имеет распределение Фишера с k-1 и n-k степенями свободы.
Границы доверительных интервалов для параметров j определяются по формуле
, j=0,2,…,k-1 (44)
где - диагональный элемент матрицы- заданный уровень значимости.
Пусть при различных значениях переменнойх имеются повторные наблюдения переменной у ,причем при х = хi произведено ni наблюдений у, где =n – объем выборки наблюдений. Обозначим yij – результаты повторных наблюдений переменной у при х = хi i=1,2,…,m ; j=1,2,…,ni ;
Адекватность модели проверяется аналогично линейной регрессии, вычисляется статистика:
где ,i=1,2,…,m,
а .
Пример.
Найти оценки параметров модели
по следующим данным:
x |
-2 |
-1 |
0 |
1 |
2 |
y |
-7 |
-2 |
1 |
49 |
102 |
Проверить значимость модели, вычислить оценку дисперсии ошибок наблюдений и найти доверительные интервалы для параметров модели. Принять = 0,05.
В данном примере
А = ,,
Система уравнений (39) примет вид:
(45)
Составим Таблицу 12.
Таблица12
|
x |
y |
xy |
y |
x |
y2 | ||
|
-2 |
-7 |
14 |
4 |
-28 |
-8 |
16 |
49 |
|
-1 |
-2 |
2 |
1 |
-2 |
-1 |
1 |
4 |
|
0 |
1 |
0 |
0 |
0 |
0 |
0 |
1 |
|
1 |
49 |
49 |
1 |
49 |
1 |
1 |
2401 |
|
2 |
102 |
204 |
4 |
408 |
8 |
16 |
10404 |
0 |
143 |
269 |
10 |
427 |
0 |
34 |
12859 |
Подставив полученные суммы в (45), получим
(46)
Решение системы :
Уравнение регрессии
y=8,4 + 26,9x + 10,07x2
Для проверки значимости модели последовательно находим
- правая часть системы (46), . Далее вычисляем
Выборочное значение статистики (43) равно
.
Так как ( Приложение 5), то гипотеза о незначимости модели отклоняется.
Коэффициент детерминации
Оценка дисперсии ошибок наблюдений определяется по формуле (41):
.
Определим доверительные интервалы для параметров модели. По таблице Приложения 3 находим = 4,303.
Вычислим ,
По формулам (44) границы доверительных интервалов
для ;
для ;
для .
Ни один доверительный интервал не накрывает нуль, следовательно все переменные включаем в модель. Большой разброс границ объясняется тем, что оценки параметров определены по малому числу наблюдений (n = 5).
Использование средств Excel для получения коэффициентов регрессионной модели.
Приведенный пример показывает, что обработка результатов наблюдений для получения коэффициентов регрессионной модели довольно трудоемка. Среди средств Excel имеется надстройка «Поиск решений», с помощью которой можно автоматизировать расчеты.